タグ:vae – AIディベロッパーblog

タグ: vae

Qwenモデルファミリーについてまとめてみました

投稿:05/22/2026

「Qwenってよく聞くけど、モデルが多すぎて何が何だかわからない」——そんな声をよく耳にします。本記事では、Qwenの概要・ライセンス・モデルファミリーの全体像をわかりやすく整理します。 Qwenとは Qwen（クウェン）は、中国テック大手 Alibaba Cloud（アリババクラウド）が開発・公開する大規模AIモデルのファミリー総称です。正式名称は通義千問（Tōngyì Qiānwèn）。「千（Qian）＝千」と「問（Wen）＝問

ローカルで動かせる画像生成AIモデル6選【技術比較・VRAM目安・互換性まとめ】

投稿:05/19/2026

投稿先画像処理・作成

画像生成AIはクラウドサービスだけでなく、自分のPC上でローカル推論できるモデルも多数存在します。本記事では、ローカルで動作する主要モデルを6つ取り上げ、アーキテクチャの違い・必要なVRAM・各ツールとの互換性を徹底解説します。アーキテクチャ別モデル解説 ① Stable Diffusion 1.5（SD 1.5）アーキテクチャ：UNet + CLIP パラメータ数：約860M ネイティブ解像度：512 × 512 VAE：KL-f

UNetとは何か？safetensors・Diffusersとの違いまでわかりやすく解説

投稿:04/21/2026

投稿先画像処理・作成

AI画像生成を学んでいると、「UNet」「safetensors」「Diffusers」といった用語が頻繁に出てきます。それぞれ関連はありますが、役割はまったく異なります。この記事では、 UNetとは何か safetensorsとの違い Diffusersの意味（略語も含む）を、初心者でも理解できるように整理して解説します。 UNetとは？ UNet（ユー・ネット）は、**画像処理に使われるニューラルネットワークの構造（アーキテクチ

VAEとは？Stable Diffusionでの役割とONNXへの変換方法（encoder / decoder分離）

投稿:04/17/2026

投稿先アプリケーション開発

VAE（Variational Autoencoder）とは VAE（Variational Autoencoder）は、画像を「圧縮」と「復元」するためのニューラルネットワークです。 Stable Diffusion では、画像生成の効率を高めるために重要な役割を担っています。 VAEは主に次の2つの構成要素から成り立っています： Encoder（エンコーダー）画像（RGB）を潜在表現（latent）に圧縮する Decoder（デコ

Stable Diffusionのメモリ最適化まとめ（CPU offload / slicing / bitsandbytes / accelerate）

投稿:04/16/2026

投稿先画像処理・作成

Stable Diffusionなどの画像生成モデルを動かすとき、特に問題になるのが「VRAM不足」です。この記事では、Diffusersでよく使われるメモリ最適化機能と、その仕組み・注意点をまとめます。メモリ最適化機能の概要 enable_model_cpu_offload() モデル全体をGPUに常駐させず、必要なときだけCPUからGPUへ転送する仕組みです。使う直前にGPUへロード使い終わったらCPUへ戻す特徴 VRAM使

PyInstallerでStable DiffusionやQwenなどAIアプリをスタンドアロン化する方法と注意

投稿:04/08/2026

投稿先アプリケーション開発

Python製のAIアプリ（Stable Diffusion、Qwen、Wanなど）を「Python未導入のPCでもそのまま動くスタンドアロン実行ファイル」にしたい場合、よく使われるのが PyInstaller です。 pip install pyinstaller pyinstaller –onefile main.py しかし、AI系ライブラリを含むアプリでは単純にビルドしただけでは失敗することが多く、以下のような追加オ

WAN 2.1の速度向上Self-Forcing とは何か？

投稿:04/06/2026

投稿先動画

WAN 2.1（Wan-AI製）は、中国アリババグループ傘下の研究チームが開発・公開したオープンソースの動画生成AIモデルです。テキストから動画を生成するT2V（Text-to-Video）、画像から動画を生成するI2V（Image-to-Video）、動画編集など複数のタスクに対応しており、2025年初頭に公開されて以来、ComfyUI ユーザーを中心に急速に普及しました。モデルの規模は 1.3B（13億パラメータ）と 14B（1

WanによるAI動画生成で「プロンプトを書いたのに人物が全然動かない」場合のパラメーターの見直し

投稿:04/02/2026

投稿先動画

WanによるAI動画生成で「プロンプトを書いたのに人物が全然動かない」という経験はありませんか？この記事では、Wanで人物の動きを強く引き出すプロンプトのコツと、シンプルな実行コードをまとめて解説します。なぜ人物が動かないのか？プロンプトの書き方以前に、パラメータ設定が原因でほぼ動かなくなるケースが多いです。まず以下を確認してください。パラメータ NG値推奨値 guidance_scale 1～２（低すぎる） 5.0〜7.0 n

WAN動画生成で緑のブロックノイズが出る原因と解決法【テキストエンコーダーの選び方】

投稿:03/28/2026

投稿先動画

WAN 2.1で動画生成を試みたとき、出力が緑がかったブロックノイズのような壊れた画像になった経験はないでしょうか。この問題の原因は、テキストエンコーダーの種類の間違いとFP8量子化の非互換性の組み合わせにあります。原因①：テキストエンコーダーのアーキテクチャが違うよく混同されるのが、以下の2つのエンコーダーです。モデル使うT5エンコーダー FLUX T5-XXL（標準） WAN 2.1 umt5-XXL（UniMax T5、別

QwenImageEditPlusPipeline で 512px 画像が「ズームイン」される原因と修正方法

投稿:03/18/2026

投稿先画像処理・作成

HuggingFace の diffusers ライブラリに含まれる QwenImageEditPlusPipeline を使って 512×512 の画像を編集しようとすると、出力画像が不自然にズームインされたり画角がズレる現象が起きます。この記事ではその原因とコード修正方法を解説します。 🔍 現象以下のようなコードで 512×512 の入力画像を処理すると、生成結果が元画像よりも「寄り」になってしまいます。 inputs = { "