画像生成AIはクラウドサービスだけでなく、自分のPC上でローカル推論できるモデルも多数存在します。本記事では、ローカルで動作する主要モデルを6つ取り上げ、アーキテクチャの違い・必要なVRAM・各ツールとの互換性を徹底解説します。


アーキテクチャ別モデル解説

① Stable Diffusion 1.5(SD 1.5)

アーキテクチャ:UNet + CLIP
パラメータ数:約860M
ネイティブ解像度:512 × 512
VAE:KL-f8
必要VRAM:2〜4 GB

Stability AIが2022年にリリースした画像生成AIの基盤モデルです。軽量で動作が速く、膨大な数のLoRAや拡張機能が存在する点が最大の強みです。SDXLやFluxと異なり、低スペックなGPUでも動作するため、今もコミュニティの中心的な存在です。

② Stable Diffusion XL 1.0(SDXL)

アーキテクチャ:UNet(2.6B)+ OpenCLIP + CLIP-ViT-L(2つ)
ネイティブ解像度:1024 × 1024
VAE:SDXL-VAE
必要VRAM:6〜8 GB

SD 1.5の後継モデルで、解像度と画質が大幅に向上しています。BaseモデルとRefinerモデルの2段構成が特徴で、2つのテキストエンコーダーを使うことでプロンプト理解度も高まっています。SD 1.5とはアーキテクチャが異なるため、LoRAや埋め込みの互換性はありません。

③ Pony Diffusion V6 XL

アーキテクチャ:SDXLベースのファインチューン
特化領域:アニメ・イラスト
プロンプト方式:Danbooru/e621タグ系
必要VRAM:6〜8 GB

SDXLをベースにアニメ・イラスト向けに特化して追加学習させたモデルです。score_9score_8_upなどの品質タグを冒頭に記述するプロンプト作法が独特で、これを使わないと品質が大幅に落ちます。SDXLのLoRAやControlNetが流用できますが、Pony専用として訓練されたLoRAの使用が推奨されます。

④ Illustrious XL

アーキテクチャ:SDXLベースのファインチューン
特化領域:アニメ・イラスト
特徴:タグ依存が低く、自然文プロンプトにも対応
必要VRAM:6〜8 GB

Ponyの課題(タグ形式への強い依存)を改善したアニメ特化モデルです。自然文プロンプトにも対応しており、Ponyの後継候補として注目されています。SDXLベースなので互換性はSDXLに準じます。

⑤ Flux.1(Black Forest Labs)

アーキテクチャ:Diffusion Transformer(DiT)
パラメータ数:約12B
テキストエンコーダー:T5-XXL + CLIP
バリアント:dev(高品質)/ schnell(高速)/ pro(商用)
必要VRAM:fp16で12〜16 GB、GGUF/NF4量子化で6〜8 GB

SD系とは根本的に異なる「Diffusion Transformer(DiT)」を採用した次世代モデルです。12Bという大規模なパラメータ数と、T5-XXLとCLIPを組み合わせたテキストエンコーダーにより、プロンプトの理解度と画質が飛躍的に向上しています。従来のSD系LoRAやControlNetは一切使えず、Flux専用のものが必要です。A1111(WebUI)での動作は不安定なため、ComfyUIまたはForge(A1111フォーク)の使用を推奨します。

⑥ HiDream-I1

アーキテクチャ:DiT系
パラメータ数:約17B
テキストエンコーダー:T5 + LLaMA3
バリアント:Full / Dev / Fast / Edit の4種類
必要VRAM:fp16で20〜24 GB、NF4量子化で8〜10 GB

2025年にリリースされた新鋭のオープンソースモデルです。テキストエンコーダーにLLaMA3という大規模言語モデルを採用しており、テキスト理解度がさらに高まっています。Fluxに迫る品質が話題となっていますが、エコシステムはまだ発展途上で、ComfyUIの専用カスタムノードのみ対応しています。


Latent Diffusion と DiT(Diffusion Transformer)の違い

画像生成AIの技術は急速に進化しています。Stable DiffusionやFlux、Soraといったモデルの仕組みを理解するうえで欠かせないのが「Latent Diffusion」と「DiT(Diffusion Transformer)」という2つのアーキテクチャです。この記事では、それぞれの違いと、背景にある「U-Net vs Transformer」という構造的な差異をわかりやすく説明します。


拡散モデルの2つの設計ポイント

拡散モデルを設計するとき、大きく2つの問いに答える必要があります。

  1. どこでノイズ除去するか(ピクセル空間 vs 潜在空間)
  2. ノイズ除去をどのネットワークが担うか(U-Net vs Transformer)

Latent DiffusionとDiTは、この2つの問いへの答え方が異なります。


Latent Diffusion(潜在拡散モデル)とは

従来の拡散モデルは、512×512ピクセルの画像に直接ノイズをかけて除去していました。これは計算コストが非常に大きい方法です。

Latent Diffusionの核心的なアイデアは、VAE(変分オートエンコーダー)で画像を小さな潜在表現に圧縮してから、その潜在空間上で拡散プロセスを行うという点です。たとえば512×512の画像を64×64の潜在空間に落とすと、計算量は約1/64になります。

ノイズ除去ネットワークには、画像処理の実績が豊富なU-Netが使われています。代表例はStable Diffusion 1.x / 2.xです。


DiT(Diffusion Transformer)とは

DiTは「潜在空間で拡散する」という点はLatent Diffusionと同じです。ただし、ノイズ除去ネットワークをU-NetからTransformerに置き換えた点が最大の違いです。

潜在表現をさらに小さなパッチに分割し、各パッチをトークンとして扱い、Transformerのアテンション機構でノイズを除去します。ViT(Vision Transformer)と同じ発想を画像生成に応用したものです。代表例はStable Diffusion 3、FLUX、Soraです。


U-Net と Transformer:何が違うのか

ここが両アーキテクチャを分ける本質的な部分です。

U-Net の特徴

U-Netは「エンコーダーで情報を縮小 → デコーダーで拡大 → スキップ接続で細部を保持」という構造です。画像の局所的な特徴(エッジ、テクスチャ)を捉えるのが得意で、小〜中規模のモデルでは効率的に動作します。一方でパラメータを大規模に増やすとアーキテクチャが複雑になりやすく、スケールアップに限界があります。

Transformer の特徴

TransformerはSelf-Attentionという仕組みで、入力全体の要素間の関係を大域的に学習します。「この部分とあの部分が意味的に関連している」という長距離の依存関係を捉えるのが得意です。また、パラメータとデータを増やすほど予測可能に性能が向上する「スケーリング則」に乗りやすいことがLLM(大規模言語モデル)で実証されており、DiTもこの恩恵を受けます。

観点 U-Net Transformer(DiT)
情報の捉え方 局所的(スキップ接続) 大域的(Self-Attention)
スケールアップ 複雑化しやすい 素直に性能向上
小モデルの効率 有利 やや不利
大モデル・並列化 限界あり 有利
動画など長系列 苦手 得意

なぜDiTが主流になりつつあるのか

動画生成や超高解像度画像など、より大規模なタスクが求められるようになるにつれ、Transformerのスケーラビリティが決定的な優位性になっています。SoraがDiTベースの動画生成を採用しているのもこれが理由です。

現代の主流モデルは「潜在空間 × Transformer」の組み合わせ(DiT)に収束しつつあります。両者は対立する技術ではなく、Latent Diffusionが「どこで行うか」を解決し、DiTが「どのネットワークで行うか」を進化させた、という関係にあります。

必要VRAM早見表

モデル 最小VRAM 推奨VRAM 備考
SD 1.5 2 GB 4 GB 最軽量。低スペックPCに最適
SDXL 1.0 6 GB 8 GB Base+Refinerを同時動作させると+2〜4 GB
Pony Diffusion V6 XL 6 GB 8 GB SDXLと同等
Illustrious XL 6 GB 8 GB SDXLと同等
Flux.1 dev(fp16) 12 GB 16 GB GGUF/NF4量子化で6〜8 GBに削減可能
HiDream-I1(fp16) 20 GB 24 GB NF4量子化で8〜10 GBに削減可能

互換性マトリクス

モデル ComfyUI A1111 WebUI SD.Next SD 1.5系 LoRA SDXL系 LoRA ControlNet 量子化(GGUF等)
SD 1.5 × ○(豊富) △(不要)
SDXL × ○(XL対応版) △(不要)
Pony XL × ○(Pony対応推奨) ○(XL対応版) △(不要)
Illustrious XL × ○(専用推奨) ○(XL対応版) △(不要)
Flux.1 dev ○(専用ノード) △(Forge推奨) × × △(Flux用専用) ○(GGUF/NF4対応)
HiDream-I1 ○(専用ノード) × △(実験的) × × ×(未対応) ○(NF4推奨)

○ = 対応 △ = 部分対応・注意が必要 × = 非対応


用途別おすすめモデル

状況・用途 おすすめモデル
VRAM 4 GB以下の低スペックPC SD 1.5
アニメ・イラスト生成(VRAM 6〜8 GB) Illustrious XL / Pony Diffusion V6 XL
リアル系・高品質(VRAM 8 GB以上+量子化) Flux.1 schnell(GGUF量子化版)
最高品質・ハイエンド(VRAM 16 GB以上) Flux.1 dev
最先端モデルを試したい(VRAM 24 GB or NF4量子化) HiDream-I1

まとめ

ローカルで動かせる画像生成モデルは大きく「UNet系(SD 1.5 / SDXL / Pony / Illustrious)」と「DiT系(Flux / HiDream)」に分かれます。前者はエコシステムが充実しておりLoRAやControlNetなど拡張機能が豊富な一方、後者は画質とテキスト理解度が格段に高い代わりに高VRAMを要求します。

自分のGPUスペックと用途に合ったモデルを選ぶことが、快適なローカル生成環境の第一歩です。量子化技術(GGUF / NF4)を活用すれば、Fluxなどの大型モデルもミドルレンジGPUで試せるようになってきています。