タグ: CUDA

CUDA Version表示の正しい意味と、動作するGPU・安全なバージョン選び

はじめに nvidia-smi を実行すると、次のような表示を見ることがあります。 CUDA Version: 13.0 この表示を見て、 「CUDA 13が使える」 「どのNVIDIA GPUでも動く」 と思ってしまうケースが非常に多いですが、これは正確ではありません。 この記事では、 CUDAとは何か(簡単に) CUDA Version 表示の本当の意味 CUDAが動くGPUの条件 推論用途でCUDAを自分で入れる必要があるのか 失

続きを読む

Stable Diffusionのメモリ最適化まとめ(CPU offload / slicing / bitsandbytes / accelerate)

Stable Diffusionなどの画像生成モデルを動かすとき、特に問題になるのが「VRAM不足」です。この記事では、Diffusersでよく使われるメモリ最適化機能と、その仕組み・注意点をまとめます。 メモリ最適化機能の概要 enable_model_cpu_offload() モデル全体をGPUに常駐させず、必要なときだけCPUからGPUへ転送する仕組みです。 使う直前にGPUへロード 使い終わったらCPUへ戻す 特徴 VRAM使

続きを読む

VRAM 8GBでQwen画像生成モデルを動かす方法

Qwenベースの画像生成モデルをローカルで動かそうとして、VRAM不足に悩んでいる方も多いと思います。 今回は Diffusers の transformer_qwenimage.py(QwenTransformer2DModel)を改造してTransformerブロックをCPUにオフロードする ことで、8GBのGPUでも動かすことに成功したので、その方法の一端を共有します。 問題:Transformerブロックが多すぎてVRAMが足り

続きを読む

WanによるAI動画生成で「プロンプトを書いたのに人物が全然動かない」場合のパラメーターの見直し

WanによるAI動画生成で「プロンプトを書いたのに人物が全然動かない」という経験はありませんか?この記事では、Wanで人物の動きを強く引き出すプロンプトのコツと、シンプルな実行コードをまとめて解説します。 なぜ人物が動かないのか? プロンプトの書き方以前に、パラメータ設定が原因でほぼ動かなくなるケースが多いです。まず以下を確認してください。 パラメータ NG値 推奨値 guidance_scale 1~2(低すぎる) 5.0〜7.0 n

続きを読む

Qwen Image Edit + LoRAで2回目から高速になる理由【キャッシュの仕組みを解説】

Qwen Image EditでLoRAを使っていると、初回は1時間かかるのに、2回目からは10分で終わるという現象に気づいた方も多いのではないでしょうか。しかも、プログラムを再起動しても2回目以降は速いまま。この記事では、その理由をキャッシュの仕組みから丁寧に解説します。 結論:2種類のキャッシュが組み合わさっている 速度差の正体は、主に以下の2つのキャッシュ機構です。 OSのページキャッシュ(RAMへのファイルキャッシュ) CUDA

続きを読む

Python(embed版)でCUDA対応PyTorchを使ったGPU推論環境の作り方

はじめに 最近のGPU環境では「CUDAは自動で入っているのか?」「PyTorchはどこまで自動でやってくれるのか?」といった疑問を持つ人が多いと思います。 この記事では、Pythonのembed版(ポータブル環境)でCUDA対応PyTorchを使ったGPU推論を行う方法を、最小構成でわかりやすく解説します。 結論(重要ポイントまとめ) RTX 20xx以降でも CUDAは自動では入らない ただし PyTorch(CUDA版)に必要なラ

続きを読む