画像生成AIはクラウドサービスだけでなく、自分のPC上でローカル推論できるモデルも多数存在します。本記事では、ローカルで動作する主要モデルを6つ取り上げ、アーキテクチャの違い・必要なVRAM・各ツールとの互換性を徹底解説します。 アーキテクチャ別モデル解説 ① Stable Diffusion 1.5(SD 1.5) アーキテクチャ:UNet + CLIP パラメータ数:約860M ネイティブ解像度:512 × 512 VAE:KL-f
タグ: vae
AI画像生成を学んでいると、「UNet」「safetensors」「Diffusers」といった用語が頻繁に出てきます。それぞれ関連はありますが、役割はまったく異なります。 この記事では、 UNetとは何か safetensorsとの違い Diffusersの意味(略語も含む) を、初心者でも理解できるように整理して解説します。 UNetとは? UNet(ユー・ネット)は、**画像処理に使われるニューラルネットワークの構造(アーキテクチ
VAE(Variational Autoencoder)とは VAE(Variational Autoencoder)は、画像を「圧縮」と「復元」するためのニューラルネットワークです。 Stable Diffusion では、画像生成の効率を高めるために重要な役割を担っています。 VAEは主に次の2つの構成要素から成り立っています: Encoder(エンコーダー) 画像(RGB)を潜在表現(latent)に圧縮する Decoder(デコ
Stable Diffusionなどの画像生成モデルを動かすとき、特に問題になるのが「VRAM不足」です。この記事では、Diffusersでよく使われるメモリ最適化機能と、その仕組み・注意点をまとめます。 メモリ最適化機能の概要 enable_model_cpu_offload() モデル全体をGPUに常駐させず、必要なときだけCPUからGPUへ転送する仕組みです。 使う直前にGPUへロード 使い終わったらCPUへ戻す 特徴 VRAM使
Python製のAIアプリ(Stable Diffusion、Qwen、Wanなど)を「Python未導入のPCでもそのまま動くスタンドアロン実行ファイル」にしたい場合、よく使われるのが PyInstaller です。 pip install pyinstaller pyinstaller –onefile main.py しかし、AI系ライブラリを含むアプリでは単純にビルドしただけでは失敗することが多く、以下のような追加オ
WAN 2.1(Wan-AI製)は、中国アリババグループ傘下の研究チームが開発・公開したオープンソースの動画生成AIモデルです。テキストから動画を生成するT2V(Text-to-Video)、画像から動画を生成するI2V(Image-to-Video)、動画編集など複数のタスクに対応しており、2025年初頭に公開されて以来、ComfyUI ユーザーを中心に急速に普及しました。 モデルの規模は 1.3B(13億パラメータ) と 14B(1
WanによるAI動画生成で「プロンプトを書いたのに人物が全然動かない」という経験はありませんか?この記事では、Wanで人物の動きを強く引き出すプロンプトのコツと、シンプルな実行コードをまとめて解説します。 なぜ人物が動かないのか? プロンプトの書き方以前に、パラメータ設定が原因でほぼ動かなくなるケースが多いです。まず以下を確認してください。 パラメータ NG値 推奨値 guidance_scale 1~2(低すぎる) 5.0〜7.0 n
WAN 2.1で動画生成を試みたとき、出力が緑がかったブロックノイズのような壊れた画像になった経験はないでしょうか。この問題の原因は、テキストエンコーダーの種類の間違いとFP8量子化の非互換性の組み合わせにあります。 原因①:テキストエンコーダーのアーキテクチャが違う よく混同されるのが、以下の2つのエンコーダーです。 モデル 使うT5エンコーダー FLUX T5-XXL(標準) WAN 2.1 umt5-XXL(UniMax T5、別
HuggingFace の diffusers ライブラリに含まれる QwenImageEditPlusPipeline を使って 512×512 の画像を編集しようとすると、出力画像が不自然にズームインされたり画角がズレる現象が起きます。この記事ではその原因とコード修正方法を解説します。 🔍 現象 以下のようなコードで 512×512 の入力画像を処理すると、生成結果が元画像よりも「寄り」になってしまいます。 inputs = { "

