WAN 2.1で動画生成を試みたとき、出力が緑がかったブロックノイズのような壊れた画像になった経験はないでしょうか。この問題の原因は、テキストエンコーダーの種類の間違いとFP8量子化の非互換性の組み合わせにあります。 原因①:テキストエンコーダーのアーキテクチャが違う よく混同されるのが、以下の2つのエンコーダーです。 モデル 使うT5エンコーダー FLUX T5-XXL(標準) WAN 2.1 umt5-XXL(UniMax T5、別
タグ: vae
HuggingFace の diffusers ライブラリに含まれる QwenImageEditPlusPipeline を使って 512×512 の画像を編集しようとすると、出力画像が不自然にズームインされたり画角がズレる現象が起きます。この記事ではその原因とコード修正方法を解説します。 🔍 現象 以下のようなコードで 512×512 の入力画像を処理すると、生成結果が元画像よりも「寄り」になってしまいます。 inputs = { "


