画像生成AIはクラウドサービスだけでなく、自分のPC上でローカル推論できるモデルも多数存在します。本記事では、ローカルで動作する主要モデルを6つ取り上げ、アーキテクチャの違い・必要なVRAM・各ツールとの互換性を徹底解説します。
アーキテクチャ別モデル解説
① Stable Diffusion 1.5(SD 1.5)
アーキテクチャ:UNet + CLIP
パラメータ数:約860M
ネイティブ解像度:512 × 512
VAE:KL-f8
必要VRAM:2〜4 GB
Stability AIが2022年にリリースした画像生成AIの基盤モデルです。軽量で動作が速く、膨大な数のLoRAや拡張機能が存在する点が最大の強みです。SDXLやFluxと異なり、低スペックなGPUでも動作するため、今もコミュニティの中心的な存在です。
② Stable Diffusion XL 1.0(SDXL)
アーキテクチャ:UNet(2.6B)+ OpenCLIP + CLIP-ViT-L(2つ)
ネイティブ解像度:1024 × 1024
VAE:SDXL-VAE
必要VRAM:6〜8 GB
SD 1.5の後継モデルで、解像度と画質が大幅に向上しています。BaseモデルとRefinerモデルの2段構成が特徴で、2つのテキストエンコーダーを使うことでプロンプト理解度も高まっています。SD 1.5とはアーキテクチャが異なるため、LoRAや埋め込みの互換性はありません。
③ Pony Diffusion V6 XL
アーキテクチャ:SDXLベースのファインチューン
特化領域:アニメ・イラスト
プロンプト方式:Danbooru/e621タグ系
必要VRAM:6〜8 GB
SDXLをベースにアニメ・イラスト向けに特化して追加学習させたモデルです。score_9やscore_8_upなどの品質タグを冒頭に記述するプロンプト作法が独特で、これを使わないと品質が大幅に落ちます。SDXLのLoRAやControlNetが流用できますが、Pony専用として訓練されたLoRAの使用が推奨されます。
④ Illustrious XL
アーキテクチャ:SDXLベースのファインチューン
特化領域:アニメ・イラスト
特徴:タグ依存が低く、自然文プロンプトにも対応
必要VRAM:6〜8 GB
Ponyの課題(タグ形式への強い依存)を改善したアニメ特化モデルです。自然文プロンプトにも対応しており、Ponyの後継候補として注目されています。SDXLベースなので互換性はSDXLに準じます。
⑤ Flux.1(Black Forest Labs)
アーキテクチャ:Diffusion Transformer(DiT)
パラメータ数:約12B
テキストエンコーダー:T5-XXL + CLIP
バリアント:dev(高品質)/ schnell(高速)/ pro(商用)
必要VRAM:fp16で12〜16 GB、GGUF/NF4量子化で6〜8 GB
SD系とは根本的に異なる「Diffusion Transformer(DiT)」を採用した次世代モデルです。12Bという大規模なパラメータ数と、T5-XXLとCLIPを組み合わせたテキストエンコーダーにより、プロンプトの理解度と画質が飛躍的に向上しています。従来のSD系LoRAやControlNetは一切使えず、Flux専用のものが必要です。A1111(WebUI)での動作は不安定なため、ComfyUIまたはForge(A1111フォーク)の使用を推奨します。
⑥ HiDream-I1
アーキテクチャ:DiT系
パラメータ数:約17B
テキストエンコーダー:T5 + LLaMA3
バリアント:Full / Dev / Fast / Edit の4種類
必要VRAM:fp16で20〜24 GB、NF4量子化で8〜10 GB
2025年にリリースされた新鋭のオープンソースモデルです。テキストエンコーダーにLLaMA3という大規模言語モデルを採用しており、テキスト理解度がさらに高まっています。Fluxに迫る品質が話題となっていますが、エコシステムはまだ発展途上で、ComfyUIの専用カスタムノードのみ対応しています。
Latent Diffusion と DiT(Diffusion Transformer)の違い
画像生成AIの技術は急速に進化しています。Stable DiffusionやFlux、Soraといったモデルの仕組みを理解するうえで欠かせないのが「Latent Diffusion」と「DiT(Diffusion Transformer)」という2つのアーキテクチャです。この記事では、それぞれの違いと、背景にある「U-Net vs Transformer」という構造的な差異をわかりやすく説明します。
拡散モデルの2つの設計ポイント
拡散モデルを設計するとき、大きく2つの問いに答える必要があります。
- どこでノイズ除去するか(ピクセル空間 vs 潜在空間)
- ノイズ除去をどのネットワークが担うか(U-Net vs Transformer)
Latent DiffusionとDiTは、この2つの問いへの答え方が異なります。
Latent Diffusion(潜在拡散モデル)とは
従来の拡散モデルは、512×512ピクセルの画像に直接ノイズをかけて除去していました。これは計算コストが非常に大きい方法です。
Latent Diffusionの核心的なアイデアは、VAE(変分オートエンコーダー)で画像を小さな潜在表現に圧縮してから、その潜在空間上で拡散プロセスを行うという点です。たとえば512×512の画像を64×64の潜在空間に落とすと、計算量は約1/64になります。
ノイズ除去ネットワークには、画像処理の実績が豊富なU-Netが使われています。代表例はStable Diffusion 1.x / 2.xです。
DiT(Diffusion Transformer)とは
DiTは「潜在空間で拡散する」という点はLatent Diffusionと同じです。ただし、ノイズ除去ネットワークをU-NetからTransformerに置き換えた点が最大の違いです。
潜在表現をさらに小さなパッチに分割し、各パッチをトークンとして扱い、Transformerのアテンション機構でノイズを除去します。ViT(Vision Transformer)と同じ発想を画像生成に応用したものです。代表例はStable Diffusion 3、FLUX、Soraです。
U-Net と Transformer:何が違うのか
ここが両アーキテクチャを分ける本質的な部分です。
U-Net の特徴
U-Netは「エンコーダーで情報を縮小 → デコーダーで拡大 → スキップ接続で細部を保持」という構造です。画像の局所的な特徴(エッジ、テクスチャ)を捉えるのが得意で、小〜中規模のモデルでは効率的に動作します。一方でパラメータを大規模に増やすとアーキテクチャが複雑になりやすく、スケールアップに限界があります。
Transformer の特徴
TransformerはSelf-Attentionという仕組みで、入力全体の要素間の関係を大域的に学習します。「この部分とあの部分が意味的に関連している」という長距離の依存関係を捉えるのが得意です。また、パラメータとデータを増やすほど予測可能に性能が向上する「スケーリング則」に乗りやすいことがLLM(大規模言語モデル)で実証されており、DiTもこの恩恵を受けます。
| 観点 | U-Net | Transformer(DiT) |
|---|---|---|
| 情報の捉え方 | 局所的(スキップ接続) | 大域的(Self-Attention) |
| スケールアップ | 複雑化しやすい | 素直に性能向上 |
| 小モデルの効率 | 有利 | やや不利 |
| 大モデル・並列化 | 限界あり | 有利 |
| 動画など長系列 | 苦手 | 得意 |
なぜDiTが主流になりつつあるのか
動画生成や超高解像度画像など、より大規模なタスクが求められるようになるにつれ、Transformerのスケーラビリティが決定的な優位性になっています。SoraがDiTベースの動画生成を採用しているのもこれが理由です。
現代の主流モデルは「潜在空間 × Transformer」の組み合わせ(DiT)に収束しつつあります。両者は対立する技術ではなく、Latent Diffusionが「どこで行うか」を解決し、DiTが「どのネットワークで行うか」を進化させた、という関係にあります。
必要VRAM早見表
| モデル | 最小VRAM | 推奨VRAM | 備考 |
|---|---|---|---|
| SD 1.5 | 2 GB | 4 GB | 最軽量。低スペックPCに最適 |
| SDXL 1.0 | 6 GB | 8 GB | Base+Refinerを同時動作させると+2〜4 GB |
| Pony Diffusion V6 XL | 6 GB | 8 GB | SDXLと同等 |
| Illustrious XL | 6 GB | 8 GB | SDXLと同等 |
| Flux.1 dev(fp16) | 12 GB | 16 GB | GGUF/NF4量子化で6〜8 GBに削減可能 |
| HiDream-I1(fp16) | 20 GB | 24 GB | NF4量子化で8〜10 GBに削減可能 |
互換性マトリクス
| モデル | ComfyUI | A1111 WebUI | SD.Next | SD 1.5系 LoRA | SDXL系 LoRA | ControlNet | 量子化(GGUF等) |
|---|---|---|---|---|---|---|---|
| SD 1.5 | ○ | ○ | ○ | ○ | × | ○(豊富) | △(不要) |
| SDXL | ○ | ○ | ○ | × | ○ | ○(XL対応版) | △(不要) |
| Pony XL | ○ | ○ | ○ | × | ○(Pony対応推奨) | ○(XL対応版) | △(不要) |
| Illustrious XL | ○ | ○ | ○ | × | ○(専用推奨) | ○(XL対応版) | △(不要) |
| Flux.1 dev | ○(専用ノード) | △(Forge推奨) | ○ | × | × | △(Flux用専用) | ○(GGUF/NF4対応) |
| HiDream-I1 | ○(専用ノード) | × | △(実験的) | × | × | ×(未対応) | ○(NF4推奨) |
○ = 対応 △ = 部分対応・注意が必要 × = 非対応
用途別おすすめモデル
| 状況・用途 | おすすめモデル |
|---|---|
| VRAM 4 GB以下の低スペックPC | SD 1.5 |
| アニメ・イラスト生成(VRAM 6〜8 GB) | Illustrious XL / Pony Diffusion V6 XL |
| リアル系・高品質(VRAM 8 GB以上+量子化) | Flux.1 schnell(GGUF量子化版) |
| 最高品質・ハイエンド(VRAM 16 GB以上) | Flux.1 dev |
| 最先端モデルを試したい(VRAM 24 GB or NF4量子化) | HiDream-I1 |
まとめ
ローカルで動かせる画像生成モデルは大きく「UNet系(SD 1.5 / SDXL / Pony / Illustrious)」と「DiT系(Flux / HiDream)」に分かれます。前者はエコシステムが充実しておりLoRAやControlNetなど拡張機能が豊富な一方、後者は画質とテキスト理解度が格段に高い代わりに高VRAMを要求します。
自分のGPUスペックと用途に合ったモデルを選ぶことが、快適なローカル生成環境の第一歩です。量子化技術(GGUF / NF4)を活用すれば、Fluxなどの大型モデルもミドルレンジGPUで試せるようになってきています。


