Wan2.1やWan2.2などの動画生成AIを動かそうとすると、必ずセットで必要になるのが UMT5-XXL というモデルです。「テキストエンコーダー」と呼ばれるこのモデル、一体何をしているのでしょうか。
UMT5-XXL の正式名称と意味
正式名称は Unified Multilingual T5 Extra Extra Large(統合多言語T5・超特大モデル)、HuggingFace上の識別子は google/umt5-xxl です。
名前を分解すると次のようになります。
| 略称 | 正式名 | 意味 |
|---|---|---|
| U | Unified | 複数の言語・タスクを統合 |
| M | Multilingual | 多言語対応(日本語・中国語・英語など100言語以上) |
| T5 | Text-to-Text Transfer Transformer | Googleが開発したベースアーキテクチャ |
| XXL | Extra Extra Large | T5ファミリーの中で最大サイズ(約110億パラメータ) |
T5ファミリーにはサイズ別にSmall・Base・Large・XL・XXL の5段階があり、UMT5-XXL はそのトップに位置する 約110億パラメータ(11B) の最大モデルです。
テキストエンコーダーとしての役割
「歩く女性」「夕暮れの海辺」といったプロンプト(テキスト)を入力すると、AIはそれをそのまま理解しているわけではありません。まずテキストエンコーダーがプロンプトを 数値ベクトル(特徴量) に変換し、その情報をもとに動画生成モデルが映像を作り出します。
Wan シリーズでは、このテキストエンコーダーとして UMT5-XXL が採用されています。出力するベクトルの次元数は 4096次元 で、これが動画生成の品質に直結しています。
問題:UMT5-XXL は重すぎる
「Extra Extra Large」の名が示すとおり、ファイルサイズは非常に大きくなります。
| フォーマット | ファイルサイズ |
|---|---|
| FP32(フル精度) | 約 50GB |
| BF16(半精度) | 約 10GB |
BF16 でも 10GB を超えるため、VRAM 8〜12GB クラスのGPUでは動画生成モデル本体と合わせてメモリが足りなくなることが多く、Out of Memory(OOM)エラーに悩まされるユーザーが続出しています。
「じゃあ FLAN-T5-XL で代用すればいいのでは?」→ できません
同じT5系のモデルとして FLAN-T5-XL(Fine-tuned Language Net T5 XL、google/flan-t5-xl)(約6GB・FP16)や T5-XL(Text-to-Text Transfer Transformer XL、google-t5/t5-xl) が存在します。サイズだけ見れば理想的ですが、Wan には使えません。理由は次の通りです。
| モデル | パラメータ数 | 出力次元数 |
|---|---|---|
| UMT5-XXL(google/umt5-xxl) | 約 11B | 4096次元 |
| FLAN-T5-XL(google/flan-t5-xl) | 約 3B | 2048次元 |
| T5-XL(google-t5/t5-xl) | 約 3B | 2048次元 |
Wan の動画生成モデル(Diffusion Transformer)は 4096次元のベクトルを受け取ることを前提 にトレーニングされています。FLAN-T5-XL や T5-XL の出力は 2048次元なので次元が合わず、そのままでは動作しません。モデルの重みを作り直すレベルの改造が必要になるため、現実的な代替手段とは言えません。
解決策:UMT5-XXL FP8 量子化版なら VRAM 8GB でも動く
モデルの精度をわずかに落としてサイズを圧縮する FP8量子化 を使えば、UMT5-XXL のまま大幅にメモリを削減できます。
| ファイル | サイズ | VRAM目安 |
|---|---|---|
| umt5-xxl-enc-bf16.safetensors | 約 10GB | 厳しい |
| umt5_xxl_fp8_e4m3fn_scaled.safetensors | 約 5GB | VRAM 8GB でも可 |
FP8版は HuggingFace の Kijai/WanVideo_comfy リポジトリで配布されています。ComfyUI を使っている場合は models/text_encoders/ フォルダに配置し、「Load CLIP」ノードで読み込むだけで使えます。品質の低下もほとんど体感できないレベルです。
※上記のモデルでも動画が崩れる場合はmodels_t5_umt5-xxl-enc-fp8.pthを使用してみてください。
まとめ
- UMT5-XXL(google/umt5-xxl)は Wan の動画品質を支える重要なテキストエンコーダー
- 「XXL(Extra Extra Large)」=約110億パラメータの最大サイズで、BF16 で約10GB ある
- FLAN-T5-XL や T5-XL への差し替えは出力次元(2048次元)が合わないため不可
- FP8量子化版(約5GB)を使えば VRAM 8GB でも動作する
メモリ不足で Wan が動かせなかった方は、ぜひ FP8版の UMT5-XXL を試してみてください。



