画像生成AIはクラウドサービスだけでなく、自分のPC上でローカル推論できるモデルも多数存在します。本記事では、ローカルで動作する主要モデルを6つ取り上げ、アーキテクチャの違い・必要なVRAM・各ツールとの互換性を徹底解説します。 アーキテクチャ別モデル解説 ① Stable Diffusion 1.5(SD 1.5) アーキテクチャ:UNet + CLIP パラメータ数:約860M ネイティブ解像度:512 × 512 VAE:KL-f
タグ: LLM
1. Phi-3 Mini とは? — 小型SLMの実力 Phi-3 Mini は Microsoft が 2024 年に公開した Small Language Model (SLM) です。パラメータ数は 3.8 億(3.8B) と GPT-4 系の 1/100 以下でありながら、多くのベンチマークで同規模または大規模モデルに匹敵する精度を達成しています。 なぜ翻訳エージェントに向いているのか? 日英翻訳の精度が高い — 高品質な英語
WAN 2.1(Wan-AI製)は、中国アリババグループ傘下の研究チームが開発・公開したオープンソースの動画生成AIモデルです。テキストから動画を生成するT2V(Text-to-Video)、画像から動画を生成するI2V(Image-to-Video)、動画編集など複数のタスクに対応しており、2025年初頭に公開されて以来、ComfyUI ユーザーを中心に急速に普及しました。 モデルの規模は 1.3B(13億パラメータ) と 14B(1
GGUFファイルのファイル名に付いている Q・K・V という文字、気になったことはありませんか?これはLLM(大規模言語モデル)の中核技術である Attention(注意機構) と 量子化(Quantization) に深く関係しています。この記事ではそれぞれをわかりやすく解説します。 Attention(注意機構)とは? 一言で言うと 「文章の中でどの単語がどの単語に関係しているか」を計算する仕組みです。 具体例 次の文を見てみましょ
AIモデル(例:Qwen・Stable Diffusionなど)を使っていると、 「どこにダウンロードされてるの?」「気づいたら容量がヤバい…」と感じたことはありませんか? この記事では、Hugging Face系モデルの保存場所・容量の仕組み・削除方法・保存先変更まで、まとめて解説します。 ■ モデルはどこにダウンロードされるのか? from_pretrained() を使うと、モデルは自動的に Hugging Faceのキャッシュ領
はじめに 最近のGPU環境では「CUDAは自動で入っているのか?」「PyTorchはどこまで自動でやってくれるのか?」といった疑問を持つ人が多いと思います。 この記事では、Pythonのembed版(ポータブル環境)でCUDA対応PyTorchを使ったGPU推論を行う方法を、最小構成でわかりやすく解説します。 結論(重要ポイントまとめ) RTX 20xx以降でも CUDAは自動では入らない ただし PyTorch(CUDA版)に必要なラ

