ローカルで動かせる画像生成AIモデル6選【技術比較・VRAM目安・互換性まとめ】

画像生成AIはクラウドサービスだけでなく、自分のPC上でローカル推論できるモデルも多数存在します。本記事では、ローカルで動作する主要モデルを6つ取り上げ、アーキテクチャの違い・必要なVRAM・各ツールとの互換性を徹底解説します。

アーキテクチャ別モデル解説

① Stable Diffusion 1.5（SD 1.5）

アーキテクチャ：UNet + CLIP
パラメータ数：約860M
ネイティブ解像度：512 × 512
VAE：KL-f8
必要VRAM：2〜4 GB

Stability AIが2022年にリリースした画像生成AIの基盤モデルです。軽量で動作が速く、膨大な数のLoRAや拡張機能が存在する点が最大の強みです。SDXLやFluxと異なり、低スペックなGPUでも動作するため、今もコミュニティの中心的な存在です。

② Stable Diffusion XL 1.0（SDXL）

アーキテクチャ：UNet（2.6B）+ OpenCLIP + CLIP-ViT-L（2つ）
ネイティブ解像度：1024 × 1024
VAE：SDXL-VAE
必要VRAM：6〜8 GB

SD 1.5の後継モデルで、解像度と画質が大幅に向上しています。BaseモデルとRefinerモデルの2段構成が特徴で、2つのテキストエンコーダーを使うことでプロンプト理解度も高まっています。SD 1.5とはアーキテクチャが異なるため、LoRAや埋め込みの互換性はありません。

③ Pony Diffusion V6 XL

アーキテクチャ：SDXLベースのファインチューン
特化領域：アニメ・イラスト
プロンプト方式：Danbooru/e621タグ系
必要VRAM：6〜8 GB

SDXLをベースにアニメ・イラスト向けに特化して追加学習させたモデルです。score_9やscore_8_upなどの品質タグを冒頭に記述するプロンプト作法が独特で、これを使わないと品質が大幅に落ちます。SDXLのLoRAやControlNetが流用できますが、Pony専用として訓練されたLoRAの使用が推奨されます。

④ Illustrious XL

アーキテクチャ：SDXLベースのファインチューン
特化領域：アニメ・イラスト
特徴：タグ依存が低く、自然文プロンプトにも対応
必要VRAM：6〜8 GB

Ponyの課題（タグ形式への強い依存）を改善したアニメ特化モデルです。自然文プロンプトにも対応しており、Ponyの後継候補として注目されています。SDXLベースなので互換性はSDXLに準じます。

⑤ Flux.1（Black Forest Labs）

アーキテクチャ：Diffusion Transformer（DiT）
パラメータ数：約12B
テキストエンコーダー：T5-XXL + CLIP
バリアント：dev（高品質）/ schnell（高速）/ pro（商用）
必要VRAM：fp16で12〜16 GB、GGUF/NF4量子化で6〜8 GB

SD系とは根本的に異なる「Diffusion Transformer（DiT）」を採用した次世代モデルです。12Bという大規模なパラメータ数と、T5-XXLとCLIPを組み合わせたテキストエンコーダーにより、プロンプトの理解度と画質が飛躍的に向上しています。従来のSD系LoRAやControlNetは一切使えず、Flux専用のものが必要です。A1111（WebUI）での動作は不安定なため、ComfyUIまたはForge（A1111フォーク）の使用を推奨します。

⑥ HiDream-I1

アーキテクチャ：DiT系
パラメータ数：約17B
テキストエンコーダー：T5 + LLaMA3
バリアント：Full / Dev / Fast / Edit の4種類
必要VRAM：fp16で20〜24 GB、NF4量子化で8〜10 GB

2025年にリリースされた新鋭のオープンソースモデルです。テキストエンコーダーにLLaMA3という大規模言語モデルを採用しており、テキスト理解度がさらに高まっています。Fluxに迫る品質が話題となっていますが、エコシステムはまだ発展途上で、ComfyUIの専用カスタムノードのみ対応しています。

Latent Diffusion と DiT（Diffusion Transformer）の違い

画像生成AIの技術は急速に進化しています。Stable DiffusionやFlux、Soraといったモデルの仕組みを理解するうえで欠かせないのが「Latent Diffusion」と「DiT（Diffusion Transformer）」という2つのアーキテクチャです。この記事では、それぞれの違いと、背景にある「U-Net vs Transformer」という構造的な差異をわかりやすく説明します。

拡散モデルの2つの設計ポイント

拡散モデルを設計するとき、大きく2つの問いに答える必要があります。

どこでノイズ除去するか（ピクセル空間 vs 潜在空間）
ノイズ除去をどのネットワークが担うか（U-Net vs Transformer）

Latent DiffusionとDiTは、この2つの問いへの答え方が異なります。

Latent Diffusion（潜在拡散モデル）とは

従来の拡散モデルは、512×512ピクセルの画像に直接ノイズをかけて除去していました。これは計算コストが非常に大きい方法です。

Latent Diffusionの核心的なアイデアは、VAE（変分オートエンコーダー）で画像を小さな潜在表現に圧縮してから、その潜在空間上で拡散プロセスを行うという点です。たとえば512×512の画像を64×64の潜在空間に落とすと、計算量は約1/64になります。

ノイズ除去ネットワークには、画像処理の実績が豊富なU-Netが使われています。代表例はStable Diffusion 1.x / 2.xです。

DiT（Diffusion Transformer）とは

DiTは「潜在空間で拡散する」という点はLatent Diffusionと同じです。ただし、ノイズ除去ネットワークをU-NetからTransformerに置き換えた点が最大の違いです。

潜在表現をさらに小さなパッチに分割し、各パッチをトークンとして扱い、Transformerのアテンション機構でノイズを除去します。ViT（Vision Transformer）と同じ発想を画像生成に応用したものです。代表例はStable Diffusion 3、FLUX、Soraです。

U-Net と Transformer：何が違うのか

ここが両アーキテクチャを分ける本質的な部分です。

U-Net の特徴

U-Netは「エンコーダーで情報を縮小 → デコーダーで拡大 → スキップ接続で細部を保持」という構造です。画像の局所的な特徴（エッジ、テクスチャ）を捉えるのが得意で、小〜中規模のモデルでは効率的に動作します。一方でパラメータを大規模に増やすとアーキテクチャが複雑になりやすく、スケールアップに限界があります。

Transformer の特徴

TransformerはSelf-Attentionという仕組みで、入力全体の要素間の関係を大域的に学習します。「この部分とあの部分が意味的に関連している」という長距離の依存関係を捉えるのが得意です。また、パラメータとデータを増やすほど予測可能に性能が向上する「スケーリング則」に乗りやすいことがLLM（大規模言語モデル）で実証されており、DiTもこの恩恵を受けます。

観点	U-Net	Transformer（DiT）
情報の捉え方	局所的（スキップ接続）	大域的（Self-Attention）
スケールアップ	複雑化しやすい	素直に性能向上
小モデルの効率	有利	やや不利
大モデル・並列化	限界あり	有利
動画など長系列	苦手	得意

なぜDiTが主流になりつつあるのか

動画生成や超高解像度画像など、より大規模なタスクが求められるようになるにつれ、Transformerのスケーラビリティが決定的な優位性になっています。SoraがDiTベースの動画生成を採用しているのもこれが理由です。

現代の主流モデルは「潜在空間 × Transformer」の組み合わせ（DiT）に収束しつつあります。両者は対立する技術ではなく、Latent Diffusionが「どこで行うか」を解決し、DiTが「どのネットワークで行うか」を進化させた、という関係にあります。

必要VRAM早見表

モデル	最小VRAM	推奨VRAM	備考
SD 1.5	2 GB	4 GB	最軽量。低スペックPCに最適
SDXL 1.0	6 GB	8 GB	Base+Refinerを同時動作させると+2〜4 GB
Pony Diffusion V6 XL	6 GB	8 GB	SDXLと同等
Illustrious XL	6 GB	8 GB	SDXLと同等
Flux.1 dev（fp16）	12 GB	16 GB	GGUF/NF4量子化で6〜8 GBに削減可能
HiDream-I1（fp16）	20 GB	24 GB	NF4量子化で8〜10 GBに削減可能

互換性マトリクス

モデル	ComfyUI	A1111 WebUI	SD.Next	SD 1.5系 LoRA	SDXL系 LoRA	ControlNet	量子化（GGUF等）
SD 1.5	○	○	○	○	×	○（豊富）	△（不要）
SDXL	○	○	○	×	○	○（XL対応版）	△（不要）
Pony XL	○	○	○	×	○（Pony対応推奨）	○（XL対応版）	△（不要）
Illustrious XL	○	○	○	×	○（専用推奨）	○（XL対応版）	△（不要）
Flux.1 dev	○（専用ノード）	△（Forge推奨）	○	×	×	△（Flux用専用）	○（GGUF/NF4対応）
HiDream-I1	○（専用ノード）	×	△（実験的）	×	×	×（未対応）	○（NF4推奨）

○ = 対応　△ = 部分対応・注意が必要　× = 非対応

用途別おすすめモデル

状況・用途	おすすめモデル
VRAM 4 GB以下の低スペックPC	SD 1.5
アニメ・イラスト生成（VRAM 6〜8 GB）	Illustrious XL / Pony Diffusion V6 XL
リアル系・高品質（VRAM 8 GB以上＋量子化）	Flux.1 schnell（GGUF量子化版）
最高品質・ハイエンド（VRAM 16 GB以上）	Flux.1 dev
最先端モデルを試したい（VRAM 24 GB or NF4量子化）	HiDream-I1

まとめ

ローカルで動かせる画像生成モデルは大きく「UNet系（SD 1.5 / SDXL / Pony / Illustrious）」と「DiT系（Flux / HiDream）」に分かれます。前者はエコシステムが充実しておりLoRAやControlNetなど拡張機能が豊富な一方、後者は画質とテキスト理解度が格段に高い代わりに高VRAMを要求します。

自分のGPUスペックと用途に合ったモデルを選ぶことが、快適なローカル生成環境の第一歩です。量子化技術（GGUF / NF4）を活用すれば、Fluxなどの大型モデルもミドルレンジGPUで試せるようになってきています。