画像生成AIはクラウドサービスだけでなく、自分のPC上でローカル推論できるモデルも多数存在します。本記事では、ローカルで動作する主要モデルを6つ取り上げ、アーキテクチャの違い・必要なVRAM・各ツールとの互換性を徹底解説します。 アーキテクチャ別モデル解説 ① Stable Diffusion 1.5(SD 1.5) アーキテクチャ:UNet + CLIP パラメータ数:約860M ネイティブ解像度:512 × 512 VAE:KL-f
カテゴリー: 画像処理・作成
AI画像生成を学んでいると、「UNet」「safetensors」「Diffusers」といった用語が頻繁に出てきます。それぞれ関連はありますが、役割はまったく異なります。 この記事では、 UNetとは何か safetensorsとの違い Diffusersの意味(略語も含む) を、初心者でも理解できるように整理して解説します。 UNetとは? UNet(ユー・ネット)は、**画像処理に使われるニューラルネットワークの構造(アーキテクチ
OpenPoseとは?Qwen Image EditでAnyPoseモデルを使ったポーズ転写の完全ガイド 画像生成AIの世界では「ポーズを自由に制御したい」というニーズは非常に高いです。本記事では、OpenPoseの基本概念から、最新のQwen Image EditとAnyPoseモデルを組み合わせたポーズ転写の実装方法まで、サンプルコードとともに詳しく解説します。 📌 目次 OpenPoseとは何か 使用するモデル一覧 OpenPos
Stable Diffusionなどの画像生成モデルを動かすとき、特に問題になるのが「VRAM不足」です。この記事では、Diffusersでよく使われるメモリ最適化機能と、その仕組み・注意点をまとめます。 メモリ最適化機能の概要 enable_model_cpu_offload() モデル全体をGPUに常駐させず、必要なときだけCPUからGPUへ転送する仕組みです。 使う直前にGPUへロード 使い終わったらCPUへ戻す 特徴 VRAM使
Qwenベースの画像生成モデルをローカルで動かそうとして、VRAM不足に悩んでいる方も多いと思います。 今回は Diffusers の transformer_qwenimage.py(QwenTransformer2DModel)を改造してTransformerブロックをCPUにオフロードする ことで、8GBのGPUでも動かすことに成功したので、その方法の一端を共有します。 問題:Transformerブロックが多すぎてVRAMが足り
Stable Diffusion系の画像生成でよく使われる IP-Adapter-FaceID と ControlNet(OpenPose)。 どちらも「条件を与えて画像をコントロールする」技術ですが、 内部の仕組みはかなり異なります。 この記事では、以下を順番に解説します: 顔特徴ベクトルとは何か Cross-Attention Layer の役割 IP-Adapter-FaceID の仕組み ControlNet(OpenPose)
エラー内容 ONNXモデルを読み込む際に、以下のようなエラーが出ることがあります。 Microsoft.ML.OnnxRuntime.OnnxRuntimeException: [ErrorCode:Fail] Load model failed: Type Error: Type parameter (T) of Optype (MatMul) bound to different types (tensor(float) and t
近年、画像生成AIの分野で注目されている「Stable Diffusion」。そして、その高速化技術として話題になっている「LCM(Latent Consistency Model)」。 この記事では、これらの技術の基本から違いまで、初心者にもわかりやすく解説します。 Stable Diffusionとは?生成モデルの一種 Stable Diffusionは、テキストから画像を生成できるAIモデルで、**生成モデル(Generative
HuggingFace の diffusers ライブラリに含まれる QwenImageEditPlusPipeline を使って 512×512 の画像を編集しようとすると、出力画像が不自然にズームインされたり画角がズレる現象が起きます。この記事ではその原因とコード修正方法を解説します。 🔍 現象 以下のようなコードで 512×512 の入力画像を処理すると、生成結果が元画像よりも「寄り」になってしまいます。 inputs = { "

