AI Developer blog – AI技術を使った様々な開発のTIPSや技術のブログです

ローカルで動かせる画像生成AIモデル6選【技術比較・VRAM目安・互換性まとめ】

投稿:05/19/2026

画像生成AIはクラウドサービスだけでなく、自分のPC上でローカル推論できるモデルも多数存在します。本記事では、ローカルで動作する主要モデルを6つ取り上げ、アーキテクチャの違い・必要なVRAM・各ツールとの互換性を徹底解説します。アーキテクチャ別モデル解説 ① Stable Diffusion 1.5（SD 1.5）アーキテクチャ：UNet + CLIP パラメータ数：約860M ネイティブ解像度：512 × 512 VAE：KL-f

AIで3Dモデルを作る実践ガイド：得意なもの・苦手なものと効率的な制作フロー

投稿:05/18/2026

投稿先その他

近年は画像や文章から3Dモデルを生成するAIが急速に進化しています。以前は専門的な3Dソフトの知識が必要だった作業も、現在は数分でベースモデルを作れるようになりました。ただし、実際に使ってみると「思ったより綺麗に作れない部分」もあります。AIは万能ではなく、得意なものと苦手なものがかなりはっきりしています。この記事では、AIで実用的な3Dモデルを作る方法と、効率のよい制作手順を紹介します。 Tripo AIとは？ 3D生成AIの中で

DeepSeek V4 FlashのAPIでJSON出力が空になる問題と対処法

投稿:05/15/2026

投稿先その他

DeepSeek V3では問題なく動作していたJSON出力が、V4 Flashに移行した途端に壊れる・空になるというケースが多数報告されています。この記事では原因の調査過程と、現時点で取れる対策をまとめます。症状：content が空白トークンで埋まって返ってくる典型的な症状は以下のようなレスポンスです。completion_tokens が 150〜220 あるにもかかわらず、content がスペースだらけで実質空になっています

ONNX Runtimeの「ORT_SEQUENTIAL」と「ORT_PARALLEL」の違いを解説

投稿:05/12/2026

投稿先アプリケーション開発

ONNX Runtime（ORT）を使っていると、ORT_SEQUENTIAL や ORT_PARALLEL という設定を見かけることがあります。これらは Execution Mode（実行モード）を指定する重要な設定で、推論速度やCPU使用率に影響します。この記事では、 ORT_SEQUENTIAL ORT_PARALLEL の違いを、PythonとC#のコード例付きでわかりやすく解説します。 ORT_SEQUENTIALとは

WindowsでVOICEVOXを使いPythonから日本語を話させる方法

投稿:05/08/2026

投稿先その他

VOICEVOXとは？ VOICEVOXは、無料で使えるローカル動作の音声合成ソフトです。ずんだもん・四国めたん・春日部つむぎなど、個性豊かなキャラクターボイスを使って日本語テキストを音声に変換できます。完全ローカル動作（インターネット不要）商用・個人利用ともに無料（各キャラクターの利用規約要確認） REST API経由でPythonから簡単に呼び出し可能 Windows / Mac / Linux 対応 VOICEVOX Engi

【完全無料】Ollamaで“ChatGPTみたいなAI”をローカルPCで動かす方法｜VRAM 8GBでもOK・セキュリティ安心

投稿:05/07/2026

投稿先その他

「ChatGPTみたいなAIを、自分のPCだけで無料＆無制限に使いたい」そんな人におすすめなのが、ローカルAI実行ツール Ollama と、高性能モデル DeepSeek-R1 の組み合わせです。この方法なら、月額料金なし API料金なし回数制限なし入力データが外部送信されないオフラインでも使える PHPなどのプログラミングも可能という、かなり強力な環境を作れます。しかも、VRAM 8GBクラスのGPUでも動作可能です。

CUDA Version表示の正しい意味と、動作するGPU・安全なバージョン選び

投稿:04/27/2026

投稿先アプリケーション開発

はじめに nvidia-smi を実行すると、次のような表示を見ることがあります。 CUDA Version: 13.0 この表示を見て、「CUDA 13が使える」「どのNVIDIA GPUでも動く」と思ってしまうケースが非常に多いですが、これは正確ではありません。この記事では、 CUDAとは何か（簡単に） CUDA Version 表示の本当の意味 CUDAが動くGPUの条件推論用途でCUDAを自分で入れる必要があるのか失

ONNX変換時のエラー「MultiHeadAttention の次元不一致」を徹底解説｜dynamic_axesとは何か？

投稿:04/23/2026

投稿先その他

ONNXモデルを読み込む際に、以下のようなエラーに遭遇したことはありませんか？ Node (MultiHeadAttention_28) Op (MultiHeadAttention) [ShapeInferenceError] Inputs 0 (query) shall be 3 or 5 dimensions この記事では、このエラーの意味と原因、さらに解決に重要な「dynamic_axes」の考え方と書き方について、実践的に解説

UNetとは何か？safetensors・Diffusersとの違いまでわかりやすく解説

投稿:04/21/2026

投稿先画像処理・作成

AI画像生成を学んでいると、「UNet」「safetensors」「Diffusers」といった用語が頻繁に出てきます。それぞれ関連はありますが、役割はまったく異なります。この記事では、 UNetとは何か safetensorsとの違い Diffusersの意味（略語も含む）を、初心者でも理解できるように整理して解説します。 UNetとは？ UNet（ユー・ネット）は、**画像処理に使われるニューラルネットワークの構造（アーキテクチ

OpenPoseとは？Qwen Image EditでOpen poseを使えるか？

投稿:04/20/2026

投稿先画像処理・作成

OpenPoseとは？Qwen Image EditでAnyPoseモデルを使ったポーズ転写の完全ガイド画像生成AIの世界では「ポーズを自由に制御したい」というニーズは非常に高いです。本記事では、OpenPoseの基本概念から、最新のQwen Image EditとAnyPoseモデルを組み合わせたポーズ転写の実装方法まで、サンプルコードとともに詳しく解説します。 📌 目次 OpenPoseとは何か使用するモデル一覧 OpenPos

VAEとは？Stable Diffusionでの役割とONNXへの変換方法（encoder / decoder分離）

投稿:04/17/2026

投稿先アプリケーション開発

VAE（Variational Autoencoder）とは VAE（Variational Autoencoder）は、画像を「圧縮」と「復元」するためのニューラルネットワークです。 Stable Diffusion では、画像生成の効率を高めるために重要な役割を担っています。 VAEは主に次の2つの構成要素から成り立っています： Encoder（エンコーダー）画像（RGB）を潜在表現（latent）に圧縮する Decoder（デコ

Stable Diffusionのメモリ最適化まとめ（CPU offload / slicing / bitsandbytes / accelerate）

投稿:04/16/2026

投稿先画像処理・作成

Stable Diffusionなどの画像生成モデルを動かすとき、特に問題になるのが「VRAM不足」です。この記事では、Diffusersでよく使われるメモリ最適化機能と、その仕組み・注意点をまとめます。メモリ最適化機能の概要 enable_model_cpu_offload() モデル全体をGPUに常駐させず、必要なときだけCPUからGPUへ転送する仕組みです。使う直前にGPUへロード使い終わったらCPUへ戻す特徴 VRAM使

DiffusionとTransformerの境界が曖昧になっている理由

投稿:04/15/2026

投稿先その他

近年のAIモデルを見ていると、「Diffusion」と「Transformer」という2つの技術の境界がどんどん曖昧になってきています。特に画像生成やマルチモーダルAIの分野では、この2つが組み合わさるのが当たり前になりつつあります。本記事では、その理由を整理しながら、なぜこのような変化が起きているのかを分かりやすく解説します。 DiffusionとTransformerの本質的な違いまず重要なのは、この2つはそもそも役割が異なる

Phi-3 Mini + OnnxRuntimeGenAI で作る C# 翻訳エージェント

投稿:04/14/2026

投稿先アプリケーション開発

1. Phi-3 Mini とは？ — 小型SLMの実力 Phi-3 Mini は Microsoft が 2024 年に公開した Small Language Model (SLM) です。パラメータ数は 3.8 億（3.8B）と GPT-4 系の 1/100 以下でありながら、多くのベンチマークで同規模または大規模モデルに匹敵する精度を達成しています。なぜ翻訳エージェントに向いているのか？日英翻訳の精度が高い — 高品質な英語

Claude（Anthropic）・DeepSeek APIの使用率を監視する方法【PHPサンプルつき】

投稿:04/13/2026

投稿先ウェブサイト開発

APIを使ったシステムを本番運用していると、ある日突然リクエストが弾かれる――そんな経験はありませんか？原因のほとんどはレートリミット（呼び出し回数・トークン数の上限）への到達です。しかし実は、APIはレスポンスを返すたびに「残り使用枠」を教えてくれています。その情報は HTTPレスポンスヘッダーに含まれており、PHP の cURL でも簡単に取得できます。この記事では、まずヘッダーを生で確認する方法から始めて、最終的に「使用率90

Stable Diffusionで思い通りの画像を生成するために学習データから理解する

投稿:04/09/2026

投稿先その他

Stable Diffusionで思い通りの画像を生成するには、モデルがどのように学習されているかを理解することが近道です。この記事では、主要な学習データセットの構造を解説しながら、そこから導き出せるプロンプトのコツをまとめます。学習データセットとは何か Stable Diffusionのような画像生成AIは、大量の「画像とテキストのペア」を使って学習します。モデルは「このテキストが入力されたとき、この画像に近いものを生成せよ」という

PyInstallerでStable DiffusionやQwenなどAIアプリをスタンドアロン化する方法と注意

投稿:04/08/2026

投稿先アプリケーション開発

Python製のAIアプリ（Stable Diffusion、Qwen、Wanなど）を「Python未導入のPCでもそのまま動くスタンドアロン実行ファイル」にしたい場合、よく使われるのが PyInstaller です。 pip install pyinstaller pyinstaller –onefile main.py しかし、AI系ライブラリを含むアプリでは単純にビルドしただけでは失敗することが多く、以下のような追加オ

ONNX Runtimeの「ORT_SEQUENTIAL」と「ORT_PARALLEL」の違いを解説

投稿:04/07/2026

投稿先アプリケーション開発

ONNX Runtime（ORT）を使っていると、ORT_SEQUENTIAL や ORT_PARALLEL という設定を見かけることがあります。これらは Execution Mode（実行モード）に関する重要な設定です。この記事では、それぞれの違いと使い分けについてわかりやすく解説します。 ORT_SEQUENTIALとは ORT_SEQUENTIAL は逐次実行モードです。特徴モデル内の処理（ノード）を順番に1つずつ実