WAN 2.1(Wan-AI製)は、中国アリババグループ傘下の研究チームが開発・公開したオープンソースの動画生成AIモデルです。テキストから動画を生成するT2V(Text-to-Video)、画像から動画を生成するI2V(Image-to-Video)、動画編集など複数のタスクに対応しており、2025年初頭に公開されて以来、ComfyUI ユーザーを中心に急速に普及しました。

モデルの規模は 1.3B(13億パラメータ)14B(140億パラメータ) の2種類が存在します。1.3Bモデルは VRAM 約8GB で動作し、コンシューマー向けGPU(RTX 3060以上)でも利用可能な点が大きな特徴です。一方、14Bモデルは720p動画の高品質生成が可能ですが、約40GBのVRAMを必要とします。

WAN 2.1の主な強みは以下のとおりです。

  • 高品質な480p/720p動画生成:オープンソースモデルとしてはトップクラスの品質
  • 中国語・英語テキストの映像内生成:ビジュアルテキスト生成に初めて本格対応
  • VACE対応:ControlNet的な参照動画による動き制御が可能
  • 強力なVAE:1080P動画をリアルタイムでエンコード・デコード可能な Wan-VAE を搭載

なぜWAN 2.1は「遅い」のか? ― 拡散モデルの根本的な課題

WAN 2.1は非常に高品質な動画を生成できますが、その代償として生成速度が遅いという課題があります。通常の推論では40〜50ステップのノイズ除去(デノイジング)が必要で、RTX 4090でも5秒の480p動画の生成に数分かかることがあります。

この速度問題を解決するために登場したのが、ステップ蒸留(Step Distillation)という技術です。大きなモデル(Teacher)の知識を小さなモデル(Student)に圧縮し、少ないステップ数でも同等の品質を実現しようとするアプローチです。その中でも特に注目されているのが、今回解説する Self-Forcing + DMD の組み合わせです。


Self-Forcing とは何か?

Self-Forcing(論文:「Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion」、NeurIPS 2025 Spotlight 採択)は、カリフォルニア大学・NVIDIA の研究チーム(Huang, Xun ら)が発表した、自己回帰型動画拡散モデルの新しい学習パラダイムです。

従来手法の問題点:訓練と推論のギャップ(露出バイアス)

従来の動画生成モデルは、学習時に 正解フレーム(グラウンドトゥルース) を条件として次フレームを予測するように訓練されます(Teacher Forcing)。しかし推論時には、正解フレームではなくモデル自身が生成したフレームを条件として使わなければなりません。この訓練と推論の分布のズレが「露出バイアス(Exposure Bias)」と呼ばれる問題で、動画の時間的一貫性が損なわれる原因になります。

Self-Forcing の解決策:推論を訓練に組み込む

Self-Forcing はこの問題を根本から解決します。訓練中に KVキャッシュを使った自己回帰ロールアウト を実行し、モデル自身が生成したフレームを条件として次フレームを生成するプロセスを学習に組み込みます。つまり「推論と同じ状況で訓練する」ことで、訓練・推論間のギャップを埋めるのです。

さらに、フレーム単位の損失(ピクセル誤差)だけでなく、動画全体の品質を評価するホリスティックな損失関数を採用することで、より自然で一貫した動画が生成されます。


DMD(Distribution Matching Distillation)との組み合わせ

Self-Forcing が使用する損失関数の一つが DMD(分布マッチング蒸留) です。DMD は以下の3つのモデルを組み合わせたフレームワークです。

  • real_score:実際のデータ分布のスコアを計算するモデル(元のWAN 2.1をそのまま使用、重みは固定)
  • fake_score:生成された動画の分布のスコアを計算するモデル(元のモデルで初期化し、ファインチューニング)
  • generator:real_scoreとfake_scoreのKLダイバージェンスの勾配によって指導される生成モデル(学生モデル)

この仕組みにより、生成モデルの出力分布を実データの分布に近づけながら、推論ステップ数を大幅に削減することが可能になります。理論的には 40〜50ステップ → わずか4〜8ステップ(ただし1ステップは数倍遅くなる)を実現します。

Self-Forcing はDMD2の設計に従い、回帰損失を除去してODE(常微分方程式)初期化を採用することで、訓練の安定性を向上させています


LoRAファイル詳解:Wan2_1_self_forcing_dmd_1_3B_lora_rank_32_fp16.safetensors

このファイルの概要

このLoRAファイルは、Self-Forcing + DMD 技術を WAN 2.1 T2V 1.3Bモデル用のLoRAとして変換・抽出したものです。ComfyUI 向けWAN系モデルの統合リポジトリとして広く知られる KijaiKijai/WanVideo_comfy)によって HuggingFace に公開されており、リポジトリ内の LoRAs/Wan2_1_self_forcing_1_3B/ フォルダに収録されています。同フォルダには DMD版のほかに SID v2版Wan2_1_self_forcing_sid_v2_1_3B_lora_rank_32_fp16.safetensors)も同梱されており、2種類のLoRAを選択・比較できます。

LoRAの中身は、元のSelf-Forcingチェックポイント(gdhe17/Self-Forcing)とオリジナルのWAN 2.1 1.3Bモデルの重み差分を抽出することで作成されており、既存のWAN 2.1 ワークフローに組み込む形で使用できます。

ファイルのスペック一覧

項目 内容
ファイル名 Wan2_1_self_forcing_dmd_1_3B_lora_rank_32_fp16.safetensors
ファイルサイズ 約 91.2 MB
フォーマット Safetensors(安全な重みファイル形式)
精度 FP16(半精度浮動小数点)
LoRAランク Rank 32
対象ベースモデル WAN 2.1 T2V 1.3B
適用技術 Self-Forcing + DMD(Distribution Matching Distillation)
推奨LoRA強度 1.0(標準)
推奨推論ステップ数 4〜8ステップ(通常の40〜50から大幅削減)
CFG設定 1.0 を推奨(ネガティブプロンプト不要)
対応サンプラー LCM 互換サンプラー
flow_shift 8.0 推奨
リポジトリ内パス LoRAs/Wan2_1_self_forcing_1_3B/
公開元 HuggingFace:Kijai/WanVideo_comfy
同梱バリアント DMD版(本ファイル)・SID v2版(別ファイル)の2種類

パラメータの解説

LoRAランク(Rank 32)とは

LoRA(Low-Rank Adaptation)は、元のモデル重みを変更せずに追加の「差分行列」を挿入することでファインチューニングを実現する手法です。ランク(Rank)はその差分行列の次元数を指します。ランクが高いほど表現力が増しますが、ファイルサイズも大きくなります。Rank 32はバランスの取れた設定で、品質と効率を両立しています。

FP16(半精度浮動小数点)とは

FP16はFP32(単精度)と比較してメモリ使用量を半分に抑えつつ、実用上ほぼ同等の品質を維持できる精度設定です。コンシューマーGPUでの動作に適しています。FP8バージョン(E4M3FN、E5M2)も別途提供されており、さらなるVRAM削減が可能ですが、わずかに品質が低下する場合があります。

CFG = 1.0(ネガティブプロンプト不使用)の理由

通常のWAN 2.1はCFG(Classifier-Free Guidance)スケールを7〜9程度に設定し、ポジティブ/ネガティブプロンプトの差分でガイダンスを行います。しかし Self-Forcing + DMD はその分布マッチング学習の中に方向性が組み込まれているため、CFGを1.0(実質オフ)に設定するだけで高品質な動画が生成されます。これが高速化の一因でもあります。

推奨プロンプトスタイル

Self-Forcing モデルは長く詳細なプロンプトで訓練されているため、短いプロンプトよりも詳細な描写を含む長文プロンプトの方が高品質な動画が得られます。GPT-4oなどのLLMでプロンプトを拡張してから使用することが推奨されています。


ComfyUI での使用方法

以下の手順でComfyUIに組み込むことができます。なお、本LoRAはKijaiが開発・公開しているカスタムノード ComfyUI-WanVideoWrapperGitHub)との組み合わせで使用することが推奨されています。

  1. ファイルを ComfyUI/models/loras/ フォルダに配置
  2. WAN 2.1 T2V 1.3B ベースモデルをロード(wan2.1_t2v_1.3B_fp16.safetensorsなど)
  3. LoRAローダーノードで本LoRAを適用、強度(strength)= 1.0 に設定
  4. サンプラーを LCM に変更
  5. 推論ステップ数を 4〜8 に設定
  6. CFGを 1.0 に設定(ネガティブプロンプト不要)
  7. flow_shift を 8.0 に設定

VACEを併用した Image-to-Video(I2V)を行う場合は、WanVaceToVideo ノードを使用し、対応するVACEモデルとの組み合わせが必要です。


⚠️ ライセンスについての重要な注意

このLoRAファイルのライセンスは現時点で明示されていません。

公開リポジトリ(Kijai/WanVideo_comfy)にはLoRA自体のライセンスドキュメントが存在せず、利用条件が明確にされていません。元の Self-Forcing 論文コード(gdhe17/Self-Forcing)のライセンスおよびベースモデルであるWAN 2.1 のライセンス(Apache 2.0)が間接的に適用されるとみられますが、LoRAファイル単体の商用利用可否については曖昧なままです。

商用利用・再配布・改変を検討している場合は、元の Self-Forcing リポジトリ(gdhe17/Self-Forcing)および Wan-AI のライセンスを必ず確認し、不明な点は法的な判断を求めてください。個人的な研究・学習目的での使用は一般的に問題ないとされるケースが多いですが、その保証はありません。


まとめ

Self-Forcing + DMD の技術は、自己回帰型動画生成モデルの訓練・推論ギャップという根本的な問題を解決した画期的なアプローチです。Wan2_1_self_forcing_dmd_1_3B_lora_rank_32_fp16.safetensors はその技術をLoRAとして抽出したもので、わずか91.2 MBのファイルをロードするだけで、既存のWAN 2.1 ワークフローを大幅に高速化できます。

ただし、ライセンスが不明確な点は大きな懸念事項です。商用プロジェクトへの組み込みや、生成動画の公開・販売を検討している場合は、必ず最新のライセンス情報を確認した上で判断してください。

比較項目 通常のWAN 2.1 Self-Forcing LoRA 適用後
推論ステップ数 40〜50ステップ 4〜8ステップ
速度 基準 約20〜24倍高速
CFG 7〜9(ネガティブプロンプトあり) 1.0(ネガティブプロンプト不要)
追加ファイルサイズ 約91.2 MB(LoRAのみ)
品質 最高品質 わずかなトレードオフあり
ライセンス Apache 2.0(WAN 2.1本体) 不明(要確認)

参考リンク:
・Self-Forcing 公式サイト:https://self-forcing.github.io/
・論文(arXiv):arXiv:2506.08009
・HuggingFace(Self-Forcing):gdhe17/Self-Forcing
・HuggingFace(LoRAファイル):Kijai/WanVideo_comfy — LoRAs/Wan2_1_self_forcing_1_3B
・ComfyUI カスタムノード:ComfyUI-WanVideoWrapper (Kijai)
・GitHub:guandeh17/Self-Forcing