Stable Diffusionで思い通りの画像を生成するために学習データから理解する

Stable Diffusionで思い通りの画像を生成するには、モデルがどのように学習されているかを理解することが近道です。この記事では、主要な学習データセットの構造を解説しながら、そこから導き出せるプロンプトのコツをまとめます。

学習データセットとは何か

Stable Diffusionのような画像生成AIは、大量の「画像とテキストのペア」を使って学習します。モデルは「このテキストが入力されたとき、この画像に近いものを生成せよ」という対応関係を膨大なデータから学びます。つまり、学習データの特性がそのままプロンプトの効き方に直結するのです。

LAION-5B / LAION-Aesthetics の詳細

LAION-5Bとは

LAION-5B（論文：arxiv 2210.08402）は、LAION（Large-scale Artificial Intelligence Open Network）が公開した約58.5億件の画像とテキストのペアからなる超大規模データセットです。Stable Diffusion v1の学習にも使用されており、現代の画像生成AIの基盤となっています。

データ構造の特徴

LAION-5Bのデータは、主にWebクロール（Common Crawl）から収集されており、次のような構造を持ちます。

画像URL：元のWebページ上の画像へのリンク
テキスト（キャプション）：そのWebページ上で画像に付いていた alt 属性のテキストや周辺テキスト
CLIPスコア：画像とテキストの意味的な一致度をCLIPモデルで計測したスコア（一定以上のものだけを採用）
NSFW・透かし検出スコア：フィルタリング用のメタデータ
画像サイズ・縦横比

重要なのは、テキストは人間が丁寧につけたラベルではなく、Webページのalt属性や周辺テキストをそのまま使っているという点です。ノイズが多い反面、多様な表現を含んでいます。

LAION-Aestheticsとは

LAION-Aesthetics（Hugging Face：laion2B-en-aesthetic）は、LAION-5Bの中から視覚的に美しい画像だけを抽出したサブセットです。具体的な仕組みは以下の通りです。

「この画像を1〜10点で評価してください」という人間の評価データ（SACデータセットやAVAデータセット）を収集する
CLIPのViT-L/14モデルで全画像の埋め込みベクトルを計算する
上記評価データを教師信号として、CLIPの埋め込みを入力とする線形モデル（審美スコア予測器）を学習させる
LAION-5B全体にこの予測器を適用し、スコアが閾値以上の画像だけを選別する

Stable Diffusion v1の学習には、スコア5以上の約12億枚のサブセットが使われました。スコア8以上の「LAION-Art」（約800万枚）は特に芸術性の高い画像のみで構成されています。

サブセット名	審美スコア閾値	枚数	用途例
LAION-5B (フル)	なし	約58.5億	CLIPの事前学習
LAION-Aesthetics V2 (5+)	5以上	約12億	Stable Diffusion v1
LAION-Aesthetics V2 (6+)	6以上	約6億	高品質モデルの学習
LAION-Art	8以上	約800万	芸術スタイル特化

他によく使われる学習データセット

Danbooru（アニメ・イラスト系）

Danbooru は日本のアニメ・イラストの巨大タグ付きデータベースです。イラストごとに「キャラクター属性・服装・ポーズ・背景」などをカンマ区切りのタグで記述する文化があり、このタグがそのままテキストペアとして使用されます。

例：1girl, blue_hair, school_uniform, smile, outdoors, cherry_blossoms

Waifu Diffusion（Hugging Face）はDanbooru画像でファインチューニングされた代表的なモデルです。アニメ系のモデルでプロンプトをカンマ区切りのタグ形式で書くのが有効なのは、この学習データ構造が理由です。

※現在著作権上、こういったデータは米国で訴訟の対象となりつつありますので、この点も今後は考慮する必要が出てくる可能性が高いです。

DiffusionDB（実ユーザーのプロンプトデータ）

DiffusionDB は、実際のユーザーがStable Diffusionに入力したプロンプトと生成画像を1,400万件収録したデータセットです。「実際に効いたプロンプト」の研究に使われており、プロンプトエンジニアリングの参考資料としても活用できます。

COYO-700M

COYO-700M はKakao Brainが公開した約7億件の画像テキストペアです。LAIONと同様にWebクロールベースですが、より厳密な品質フィルタリングが施されています。

Simulacra Aesthetic Captions (SAC)

AI生成画像に対して人間が審美評価を行ったデータセットで、LAION-Aesthetics予測器の学習にも使われています。「人間がどのような画像を美しいと感じるか」を直接学ぶための貴重なデータです。

学習方法から読み解くプロンプトのコツ

1. CLIPの埋め込み空間を意識する

Stable DiffusionはCLIPというモデルのテキスト埋め込みを使って画像生成を条件づけています。CLIPはWebのalt属性テキストで学習されているため、自然な文章より、説明的な名詞・形容詞の羅列に反応しやすい傾向があります。

❌ I’d like you to paint a landscape with a beautiful sunset.
✅ beautiful sunset, golden hour, dramatic sky, landscape photography, warm tones

2. トークンの順序は「重要度順」に書く

学習データのキャプションは「主語→属性→背景→スタイル」の順が多く、プロンプトの前方ほどモデルへの影響が強いという特性があります。最も重要な要素を先頭に置くのが基本です。

[主体] [詳細属性] [背景・環境] [照明条件] [スタイル・品質キーワード]

例：
portrait of a woman, red dress, standing in a forest, golden hour lighting, 
cinematic photograph, shallow depth of field

3. 強いキーワード（アンカーワード）を活用する

DreamBoothやLoRAなどのファインチューニングでは、特定の単語に新しい概念を紐付けます。逆に言えば、学習データに大量に出現する単語は強力なアンカーとして機能します。

品質系：photorealistic, masterpiece, highly detailed, 4k, 8k
照明系：golden hour, cinematic lighting, studio lighting, rim light
スタイル系：oil painting, watercolor, digital art, concept art
アーティスト参照：by Greg Rutkowski, by Artgerm（学習データに多く登場する作家名）

4. アニメ系モデルはタグ形式が有効

Danbooruの学習データ構造（カンマ区切りのタグ）に基づくモデルでは、文章ではなくタグ列の方が効果的です。

1girl, long silver hair, blue eyes, white dress, sunlit garden, 
smile, looking at viewer, soft lighting, detailed background

5. ネガティブプロンプトの理論的根拠

Stable DiffusionはCFG（Classifier-Free Guidance）という手法で学習されており、「条件あり」「条件なし（空テキスト）」の両パターンで学習します。ネガティブプロンプトは「この方向のベクトルを差し引く」という仕組みで機能するため、明示的に除外したいものを書くことで生成方向を制御できます。

ネガティブ例：
blurry, low quality, deformed, extra limbs, watermark, text, 
signature, jpeg artifacts, ugly, out of frame

6. テキスト付与方式でプロンプト戦略を変える

ベースモデル	学習データのテキスト形式	推奨プロンプトスタイル
SD v1.x（LAION-Aesthetics）	Webのalt属性テキスト	英語の説明句・キーワード羅列
SD v2.x（OpenCLIP使用）	BLIPによる自動キャプション	文章形式もある程度有効
Waifu Diffusion / NAI系	Danbooruタグ	カンマ区切りのタグ列
SDXL	高品質なキャプション（混在）	文章形式・タグ両方対応

実践的なプロンプトテンプレート

上記のコツをまとめると、以下の構造が基本となります。

[スタイル/媒体], [主体の詳細な描写], [構図・アングル], 
[照明条件], [雰囲気・色調], [品質キーワード / アーティスト参照]

実例：

cinematic photograph, young woman in a white linen dress, 
standing in a sunlit wheat field, wide angle shot, 
golden hour lighting, warm amber tones, shallow depth of field, 
highly detailed, by Gregory Crewdson

まとめ

Stable Diffusionのプロンプトが「なぜ英語が有利なのか」「なぜキーワード羅列が効くのか」には、学習データの構造という明確な理由があります。

LAION-5B / AestheticsはWebのalt属性テキスト × CLIPフィルタリングという構造
Danbooru系はカンマ区切りタグという構造
データの形式がそのままプロンプトの「効く書き方」になる

使用するモデルのベースを確認し、そのデータセットの記述スタイルに合わせてプロンプトを書くことが、安定した高品質生成への近道です。