WAN 2.1で動画生成を試みたとき、出力が緑がかったブロックノイズのような壊れた画像になった経験はないでしょうか。この問題の原因は、テキストエンコーダーの種類の間違いとFP8量子化の非互換性の組み合わせにあります。 原因①:テキストエンコーダーのアーキテクチャが違う よく混同されるのが、以下の2つのエンコーダーです。 モデル 使うT5エンコーダー FLUX T5-XXL(標準) WAN 2.1 umt5-XXL(UniMax T5、別
タグ: safetensors
機械学習モデル(特にTransformer系)を触っていると、.safetensors ファイルをNetronで開いたときに、 「ノードが並んでいるだけで、配線(接続)が見えない」 という疑問にぶつかることがあります。 この記事ではこの現象の理由と、実際にブロックの接続(配線)がどこに記録されているのかを整理して解説します。 なぜNetronで配線が見えないのか? 結論から言うと: safetensorsには「配線情報」が入っていないた
Wan2.1やWan2.2などの動画生成AIを動かそうとすると、必ずセットで必要になるのが UMT5-XXL というモデルです。「テキストエンコーダー」と呼ばれるこのモデル、一体何をしているのでしょうか。 UMT5-XXL の正式名称と意味 正式名称は Unified Multilingual T5 Extra Extra Large(統合多言語T5・超特大モデル)、HuggingFace上の識別子は google/umt5-xxl で


