タグ:PyTorch – AIディベロッパーblog

タグ: PyTorch

PyTorchでONNXを「model.onnx」と「model_weights.bin」に分けて出力する方法【古いバージョンにも対応】

投稿:07/08/2026

PyTorchでONNXモデルを書き出す際、大きなモデルではONNX External Data形式を利用して、モデル本体と重みファイルを別々に保存したいことがあります。この記事では、 model.onnx model_weights.bin の2ファイルに分けて出力する方法と、古いPyTorchを使用している場合の対処法を紹介します。通常のONNX出力一般的なONNX出力は次のようになります。 torch.onnx.export

「話しかけると自動で認識して自然な声で返答してくれるシステム」をWindows環境に構築

投稿:07/07/2026

投稿先アプリケーション開発

ローカルPC上で完全に動作する音声会話AIを作る方法を解説します。DeepSeek-R1（Ollama）・Silero VAD・Whisper・VOICEVOXを組み合わせて、「話しかけると自動で認識して自然な声で返答してくれるシステム」をWindows環境に構築します。システム構成マイク音声 ↓ Silero VAD（発話検出） ← 声が来たら自動で反応 ↓ Whisper（音声→テキスト） ↓ DeepSeek-R1 / Oll

Pythonでローカル環境にAI生成画像判定ツールを作る方法【サンプルコード付き】

投稿:05/20/2026

投稿先その他

AI画像生成技術の進化によって、実写と区別が難しい画像も増えてきました。「この画像はAI生成なのか？」と確認したい場面もあると思います。オンラインサービスを使う方法もありますが、画像を外部へアップロードしたくない場合は、ローカル環境で動作する判定ツールが便利です。この記事では、Pythonを使ってローカルPC上でAI生成画像を判定する簡単なサンプルを紹介します。ローカル判定のメリットローカル実行には次のような利点があります。画

CUDA Version表示の正しい意味と、動作するGPU・安全なバージョン選び

投稿:04/27/2026

投稿先アプリケーション開発

はじめに nvidia-smi を実行すると、次のような表示を見ることがあります。 CUDA Version: 13.0 この表示を見て、「CUDA 13が使える」「どのNVIDIA GPUでも動く」と思ってしまうケースが非常に多いですが、これは正確ではありません。この記事では、 CUDAとは何か（簡単に） CUDA Version 表示の本当の意味 CUDAが動くGPUの条件推論用途でCUDAを自分で入れる必要があるのか失

VAEとは？Stable Diffusionでの役割とONNXへの変換方法（encoder / decoder分離）

投稿:04/17/2026

投稿先アプリケーション開発

VAE（Variational Autoencoder）とは VAE（Variational Autoencoder）は、画像を「圧縮」と「復元」するためのニューラルネットワークです。 Stable Diffusion では、画像生成の効率を高めるために重要な役割を担っています。 VAEは主に次の2つの構成要素から成り立っています： Encoder（エンコーダー）画像（RGB）を潜在表現（latent）に圧縮する Decoder（デコ

PyInstallerでStable DiffusionやQwenなどAIアプリをスタンドアロン化する方法と注意

投稿:04/08/2026

投稿先アプリケーション開発

Python製のAIアプリ（Stable Diffusion、Qwen、Wanなど）を「Python未導入のPCでもそのまま動くスタンドアロン実行ファイル」にしたい場合、よく使われるのが PyInstaller です。 pip install pyinstaller pyinstaller –onefile main.py しかし、AI系ライブラリを含むアプリでは単純にビルドしただけでは失敗することが多く、以下のような追加オ

VRAM 8GBでQwen画像生成モデルを動かす方法

投稿:04/03/2026

投稿先画像処理・作成

Qwenベースの画像生成モデルをローカルで動かそうとして、VRAM不足に悩んでいる方も多いと思います。今回は Diffusers の transformer_qwenimage.py（QwenTransformer2DModel）を改造してTransformerブロックをCPUにオフロードすることで、8GBのGPUでも動かすことに成功したので、その方法の一端を共有します。問題：Transformerブロックが多すぎてVRAMが足り

Qwen Image Edit + LoRAで2回目から高速になる理由【キャッシュの仕組みを解説】

投稿:03/31/2026

投稿先アプリケーション開発

Qwen Image EditでLoRAを使っていると、初回は1時間かかるのに、2回目からは10分で終わるという現象に気づいた方も多いのではないでしょうか。しかも、プログラムを再起動しても2回目以降は速いまま。この記事では、その理由をキャッシュの仕組みから丁寧に解説します。結論：2種類のキャッシュが組み合わさっている速度差の正体は、主に以下の2つのキャッシュ機構です。 OSのページキャッシュ（RAMへのファイルキャッシュ） CUDA

WAN動画生成で緑のブロックノイズが出る原因と解決法【テキストエンコーダーの選び方】

投稿:03/28/2026

投稿先動画

WAN 2.1で動画生成を試みたとき、出力が緑がかったブロックノイズのような壊れた画像になった経験はないでしょうか。この問題の原因は、テキストエンコーダーの種類の間違いとFP8量子化の非互換性の組み合わせにあります。原因①：テキストエンコーダーのアーキテクチャが違うよく混同されるのが、以下の2つのエンコーダーです。モデル使うT5エンコーダー FLUX T5-XXL（標準） WAN 2.1 umt5-XXL（UniMax T5、別

safetensorsの「配線」はどこにある？Netronで線が見えない理由をわかりやすく解説

投稿:03/25/2026

投稿先アプリケーション開発

機械学習モデル（特にTransformer系）を触っていると、.safetensors ファイルをNetronで開いたときに、「ノードが並んでいるだけで、配線（接続）が見えない」という疑問にぶつかることがあります。この記事ではこの現象の理由と、実際にブロックの接続（配線）がどこに記録されているのかを整理して解説します。なぜNetronで配線が見えないのか？結論から言うと： safetensorsには「配線情報」が入っていないた

Python（embed版）でCUDA対応PyTorchを使ったGPU推論環境の作り方

投稿:03/23/2026

投稿先アプリケーション開発

はじめに最近のGPU環境では「CUDAは自動で入っているのか？」「PyTorchはどこまで自動でやってくれるのか？」といった疑問を持つ人が多いと思います。この記事では、Pythonのembed版（ポータブル環境）でCUDA対応PyTorchを使ったGPU推論を行う方法を、最小構成でわかりやすく解説します。結論（重要ポイントまとめ） RTX 20xx以降でも CUDAは自動では入らないただし PyTorch（CUDA版）に必要なラ