VAE(Variational Autoencoder)とは VAE(Variational Autoencoder)は、画像を「圧縮」と「復元」するためのニューラルネットワークです。 Stable Diffusion では、画像生成の効率を高めるために重要な役割を担っています。 VAEは主に次の2つの構成要素から成り立っています: Encoder(エンコーダー) 画像(RGB)を潜在表現(latent)に圧縮する Decoder(デコ
タグ: wan
Python製のAIアプリ(Stable Diffusion、Qwen、Wanなど)を「Python未導入のPCでもそのまま動くスタンドアロン実行ファイル」にしたい場合、よく使われるのが PyInstaller です。 pip install pyinstaller pyinstaller –onefile main.py しかし、AI系ライブラリを含むアプリでは単純にビルドしただけでは失敗することが多く、以下のような追加オ
WAN 2.1(Wan-AI製)は、中国アリババグループ傘下の研究チームが開発・公開したオープンソースの動画生成AIモデルです。テキストから動画を生成するT2V(Text-to-Video)、画像から動画を生成するI2V(Image-to-Video)、動画編集など複数のタスクに対応しており、2025年初頭に公開されて以来、ComfyUI ユーザーを中心に急速に普及しました。 モデルの規模は 1.3B(13億パラメータ) と 14B(1
WanによるAI動画生成で「プロンプトを書いたのに人物が全然動かない」という経験はありませんか?この記事では、Wanで人物の動きを強く引き出すプロンプトのコツと、シンプルな実行コードをまとめて解説します。 なぜ人物が動かないのか? プロンプトの書き方以前に、パラメータ設定が原因でほぼ動かなくなるケースが多いです。まず以下を確認してください。 パラメータ NG値 推奨値 guidance_scale 1~2(低すぎる) 5.0〜7.0 n
WAN 2.1で動画生成を試みたとき、出力が緑がかったブロックノイズのような壊れた画像になった経験はないでしょうか。この問題の原因は、テキストエンコーダーの種類の間違いとFP8量子化の非互換性の組み合わせにあります。 原因①:テキストエンコーダーのアーキテクチャが違う よく混同されるのが、以下の2つのエンコーダーです。 モデル 使うT5エンコーダー FLUX T5-XXL(標準) WAN 2.1 umt5-XXL(UniMax T5、別
画像・動画生成AIを使っていると必ず出てくる Guidance Scale(CFG Scale)と、最近よく見かける True CFG。「なんとなく数値を変えて試している」という方も多いと思いますが、この記事ではその仕組みと、実用的な設定値を口語でわかりやすく解説します。 そもそも拡散モデルは何をしているのか WAN や Qwen ベースの生成モデルは、「ノイズだらけの画像から、少しずつノイズを取り除いて絵を作る」 という仕組み(拡散モ
Wan2.1やWan2.2などの動画生成AIを動かそうとすると、必ずセットで必要になるのが UMT5-XXL というモデルです。「テキストエンコーダー」と呼ばれるこのモデル、一体何をしているのでしょうか。 UMT5-XXL の正式名称と意味 正式名称は Unified Multilingual T5 Extra Extra Large(統合多言語T5・超特大モデル)、HuggingFace上の識別子は google/umt5-xxl で

