タグ:transformer – AIディベロッパーblog

タグ: transformer

ローカルで動かせる画像生成AIモデル6選【技術比較・VRAM目安・互換性まとめ】

投稿:05/19/2026

画像生成AIはクラウドサービスだけでなく、自分のPC上でローカル推論できるモデルも多数存在します。本記事では、ローカルで動作する主要モデルを6つ取り上げ、アーキテクチャの違い・必要なVRAM・各ツールとの互換性を徹底解説します。アーキテクチャ別モデル解説 ① Stable Diffusion 1.5（SD 1.5）アーキテクチャ：UNet + CLIP パラメータ数：約860M ネイティブ解像度：512 × 512 VAE：KL-f

ONNX変換時のエラー「MultiHeadAttention の次元不一致」を徹底解説｜dynamic_axesとは何か？

投稿:04/23/2026

投稿先その他

ONNXモデルを読み込む際に、以下のようなエラーに遭遇したことはありませんか？ Node (MultiHeadAttention_28) Op (MultiHeadAttention) [ShapeInferenceError] Inputs 0 (query) shall be 3 or 5 dimensions この記事では、このエラーの意味と原因、さらに解決に重要な「dynamic_axes」の考え方と書き方について、実践的に解説

OpenPoseとは？Qwen Image EditでOpen poseを使えるか？

投稿:04/20/2026

投稿先画像処理・作成

OpenPoseとは？Qwen Image EditでAnyPoseモデルを使ったポーズ転写の完全ガイド画像生成AIの世界では「ポーズを自由に制御したい」というニーズは非常に高いです。本記事では、OpenPoseの基本概念から、最新のQwen Image EditとAnyPoseモデルを組み合わせたポーズ転写の実装方法まで、サンプルコードとともに詳しく解説します。 📌 目次 OpenPoseとは何か使用するモデル一覧 OpenPos

DiffusionとTransformerの境界が曖昧になっている理由

投稿:04/15/2026

投稿先その他

近年のAIモデルを見ていると、「Diffusion」と「Transformer」という2つの技術の境界がどんどん曖昧になってきています。特に画像生成やマルチモーダルAIの分野では、この2つが組み合わさるのが当たり前になりつつあります。本記事では、その理由を整理しながら、なぜこのような変化が起きているのかを分かりやすく解説します。 DiffusionとTransformerの本質的な違いまず重要なのは、この2つはそもそも役割が異なる

PyInstallerでStable DiffusionやQwenなどAIアプリをスタンドアロン化する方法と注意

投稿:04/08/2026

投稿先アプリケーション開発

Python製のAIアプリ（Stable Diffusion、Qwen、Wanなど）を「Python未導入のPCでもそのまま動くスタンドアロン実行ファイル」にしたい場合、よく使われるのが PyInstaller です。 pip install pyinstaller pyinstaller –onefile main.py しかし、AI系ライブラリを含むアプリでは単純にビルドしただけでは失敗することが多く、以下のような追加オ

VRAM 8GBでQwen画像生成モデルを動かす方法

投稿:04/03/2026

投稿先画像処理・作成

Qwenベースの画像生成モデルをローカルで動かそうとして、VRAM不足に悩んでいる方も多いと思います。今回は Diffusers の transformer_qwenimage.py（QwenTransformer2DModel）を改造してTransformerブロックをCPUにオフロードすることで、8GBのGPUでも動かすことに成功したので、その方法の一端を共有します。問題：Transformerブロックが多すぎてVRAMが足り

WanによるAI動画生成で「プロンプトを書いたのに人物が全然動かない」場合のパラメーターの見直し

投稿:04/02/2026

投稿先動画

WanによるAI動画生成で「プロンプトを書いたのに人物が全然動かない」という経験はありませんか？この記事では、Wanで人物の動きを強く引き出すプロンプトのコツと、シンプルな実行コードをまとめて解説します。なぜ人物が動かないのか？プロンプトの書き方以前に、パラメータ設定が原因でほぼ動かなくなるケースが多いです。まず以下を確認してください。パラメータ NG値推奨値 guidance_scale 1～２（低すぎる） 5.0〜7.0 n

Hugging Faceモデルの保存場所・容量・削除方法まとめ（QwenやStable Diffusionにも対応）

投稿:03/27/2026

投稿先アプリケーション開発

AIモデル（例：Qwen・Stable Diffusionなど）を使っていると、「どこにダウンロードされてるの？」「気づいたら容量がヤバい…」と感じたことはありませんか？この記事では、Hugging Face系モデルの保存場所・容量の仕組み・削除方法・保存先変更まで、まとめて解説します。 ■ モデルはどこにダウンロードされるのか？ from_pretrained() を使うと、モデルは自動的に Hugging Faceのキャッシュ領

safetensorsの「配線」はどこにある？Netronで線が見えない理由をわかりやすく解説

投稿:03/25/2026

投稿先アプリケーション開発

機械学習モデル（特にTransformer系）を触っていると、.safetensors ファイルをNetronで開いたときに、「ノードが並んでいるだけで、配線（接続）が見えない」という疑問にぶつかることがあります。この記事ではこの現象の理由と、実際にブロックの接続（配線）がどこに記録されているのかを整理して解説します。なぜNetronで配線が見えないのか？結論から言うと： safetensorsには「配線情報」が入っていないた

Wan動画生成AIに使われている「UMT5-XXL」とは何か？

投稿:03/21/2026

投稿先動画

Wan2.1やWan2.2などの動画生成AIを動かそうとすると、必ずセットで必要になるのが UMT5-XXL というモデルです。「テキストエンコーダー」と呼ばれるこのモデル、一体何をしているのでしょうか。 UMT5-XXL の正式名称と意味正式名称は Unified Multilingual T5 Extra Extra Large（統合多言語T5・超特大モデル）、HuggingFace上の識別子は google/umt5-xxl で

Stable Diffusion U-Net の ONNX に別の ONNX モデルを結合する方法

投稿:03/17/2026

投稿先その他

Stable Diffusion ONNX U-Net に別モデルを統合する方法 Stable Diffusion の ONNX 版 U-Net を改造して、別の ONNX モデルを内部に結合することで、 IP-Adapter カスタム Attention Control 信号などを直接モデル内部に組み込むことができます。この記事では既存の model.onnx に別の model.onnx を統合する方法を紹介します。例として