カテゴリー: アプリケーション開発

Qwen Image Edit + LoRAで2回目から高速になる理由【キャッシュの仕組みを解説】

Qwen Image EditでLoRAを使っていると、初回は1時間かかるのに、2回目からは10分で終わるという現象に気づいた方も多いのではないでしょうか。しかも、プログラムを再起動しても2回目以降は速いまま。この記事では、その理由をキャッシュの仕組みから丁寧に解説します。 結論:2種類のキャッシュが組み合わさっている 速度差の正体は、主に以下の2つのキャッシュ機構です。 OSのページキャッシュ(RAMへのファイルキャッシュ) CUDA

続きを読む

Hugging Faceモデルの保存場所・容量・削除方法まとめ(QwenやStable Diffusionにも対応)

AIモデル(例:Qwen・Stable Diffusionなど)を使っていると、 「どこにダウンロードされてるの?」「気づいたら容量がヤバい…」と感じたことはありませんか? この記事では、Hugging Face系モデルの保存場所・容量の仕組み・削除方法・保存先変更まで、まとめて解説します。 ■ モデルはどこにダウンロードされるのか? from_pretrained() を使うと、モデルは自動的に Hugging Faceのキャッシュ領

続きを読む

safetensorsの「配線」はどこにある?Netronで線が見えない理由をわかりやすく解説

機械学習モデル(特にTransformer系)を触っていると、.safetensors ファイルをNetronで開いたときに、 「ノードが並んでいるだけで、配線(接続)が見えない」 という疑問にぶつかることがあります。 この記事ではこの現象の理由と、実際にブロックの接続(配線)がどこに記録されているのかを整理して解説します。 なぜNetronで配線が見えないのか? 結論から言うと: safetensorsには「配線情報」が入っていないた

続きを読む

Python(embed版)でCUDA対応PyTorchを使ったGPU推論環境の作り方

はじめに 最近のGPU環境では「CUDAは自動で入っているのか?」「PyTorchはどこまで自動でやってくれるのか?」といった疑問を持つ人が多いと思います。 この記事では、Pythonのembed版(ポータブル環境)でCUDA対応PyTorchを使ったGPU推論を行う方法を、最小構成でわかりやすく解説します。 結論(重要ポイントまとめ) RTX 20xx以降でも CUDAは自動では入らない ただし PyTorch(CUDA版)に必要なラ

続きを読む

【PyTorch】torch_has_triton()がFalseになる問題と解決方法【Windows】

WindowsでTritonをインストールしたにもかかわらず、torch_has_triton()がFalseを返してしまう問題に遭遇することがあります。この記事では、その原因と解決方法を解説します。 Tritonとは?  GPUカーネルをPythonで書けるようにするコンパイラ/言語です。 通常、GPUで高速な処理をするにはCUDA(C++)でカーネルを書く必要がありますが、TritonはそれをPythonに近い書き方で実現

続きを読む