GGUFファイルのファイル名に付いている Q・K・V という文字、気になったことはありませんか?これはLLM(大規模言語モデル)の中核技術である Attention(注意機構)量子化(Quantization) に深く関係しています。この記事ではそれぞれをわかりやすく解説します。


Attention(注意機構)とは?

一言で言うと

「文章の中でどの単語がどの単語に関係しているか」を計算する仕組みです。

具体例

次の文を見てみましょう。

彼女は荷物が重かったので、彼女は疲れた」

人間なら2つの「彼女」が同じ人物だとすぐわかります。Attentionはこの関係性を数値で表現します。

「疲れた」← 誰が? → 「彼女」に注目度 80%
                   → 「荷物」に注目度 15%
                   → その他         5%

各単語が他のすべての単語を「どれくらい参照すべきか」をスコアとして計算することで、AIは文脈を理解できるようになります。

Q・K・V の役割

記号 正式名 役割
Q Query(クエリ) 「何を探しているか」を表す行列
K Key(キー) 「何が存在しているか」を表す行列
V Value(バリュー) 「実際に取り出す情報」を表す行列

この3つの行列を組み合わせることで、「Q(何を探す)× K(何がある)→ V(情報を取り出す)」 という流れで文脈の理解が実現されます。


量子化(Quantization)とは?

一言で言うと

「数値の精度を意図的に落としてファイルを小さくする」技術です。

具体例

モデルの重み(パラメータ)は本来 32bit の浮動小数点数で表現されています。

元の数値(32bit):   0.392847561...
4bit に量子化:       0.39          ← 少し雑になるが軽い
精度 サイズ感 イメージ
32bit(元) 100% 原寸大の地図
8bit 約25% 少し省略した地図
4bit 約12% かなり省略した地図
2bit 約6% ざっくりした地図

なぜ量子化が必要なの?

LlamaやMistralなどの大規模モデルはそのままだと 数十〜数百GB になってしまい、普通のPCでは動かせません。量子化することで 数GB に収まり、自宅のマシンでも動かせるようになります。


GGUFファイル名の読み方

ファイル名に Q/K/V が含まれる場合、量子化のビット数が行列ごとに異なる「K-Quant方式」を使っていることを示しています。

通常の Q4_0   → 全ての重みを均一に4bitで量子化

Q4_K_M        → Attention の Q/K/V 行列などは高精度(5bit)
                 FFN層などは低精度(4bit) で量子化(混合方式)

重要な部分だけ精度を高く保つことで、精度とファイルサイズのバランスを最適化しています。

どのファイルを選べばいい?

ファイル名 精度 おすすめ度
Q2_K 超軽量・精度は落ちる
Q4_K_M ⭐ バランス最良(最もおすすめ)
Q5_K_M 高め 精度重視の方に
Q8_0 ほぼ元モデルに近い品質

まとめ

Attention  → モデルの「頭の良さ」の核心部分
量子化     → その頭脳を「圧縮して持ち運べる」ようにする技術

Q4_K_M = Attentionの重要部分(Q/K/V)は高精度に残しつつ
         全体を4bit量子化した、バランスの良いモデル形式

GGUFファイルを選ぶときは、まず Q4_K_M を試してみるのがおすすめです。手元のマシンのVRAMやRAMに余裕があれば Q5_K_MQ8_0 も検討してみてください。