AI画像生成を学んでいると、「UNet」「safetensors」「Diffusers」といった用語が頻繁に出てきます。それぞれ関連はありますが、役割はまったく異なります。 この記事では、 UNetとは何か safetensorsとの違い Diffusersの意味(略語も含む) を、初心者でも理解できるように整理して解説します。 UNetとは? UNet(ユー・ネット)は、**画像処理に使われるニューラルネットワークの構造(アーキテクチ
タグ: safetensors
OpenPoseとは?Qwen Image EditでAnyPoseモデルを使ったポーズ転写の完全ガイド 画像生成AIの世界では「ポーズを自由に制御したい」というニーズは非常に高いです。本記事では、OpenPoseの基本概念から、最新のQwen Image EditとAnyPoseモデルを組み合わせたポーズ転写の実装方法まで、サンプルコードとともに詳しく解説します。 📌 目次 OpenPoseとは何か 使用するモデル一覧 OpenPos
VAE(Variational Autoencoder)とは VAE(Variational Autoencoder)は、画像を「圧縮」と「復元」するためのニューラルネットワークです。 Stable Diffusion では、画像生成の効率を高めるために重要な役割を担っています。 VAEは主に次の2つの構成要素から成り立っています: Encoder(エンコーダー) 画像(RGB)を潜在表現(latent)に圧縮する Decoder(デコ
WAN 2.1(Wan-AI製)は、中国アリババグループ傘下の研究チームが開発・公開したオープンソースの動画生成AIモデルです。テキストから動画を生成するT2V(Text-to-Video)、画像から動画を生成するI2V(Image-to-Video)、動画編集など複数のタスクに対応しており、2025年初頭に公開されて以来、ComfyUI ユーザーを中心に急速に普及しました。 モデルの規模は 1.3B(13億パラメータ) と 14B(1
WAN 2.1で動画生成を試みたとき、出力が緑がかったブロックノイズのような壊れた画像になった経験はないでしょうか。この問題の原因は、テキストエンコーダーの種類の間違いとFP8量子化の非互換性の組み合わせにあります。 原因①:テキストエンコーダーのアーキテクチャが違う よく混同されるのが、以下の2つのエンコーダーです。 モデル 使うT5エンコーダー FLUX T5-XXL(標準) WAN 2.1 umt5-XXL(UniMax T5、別
機械学習モデル(特にTransformer系)を触っていると、.safetensors ファイルをNetronで開いたときに、 「ノードが並んでいるだけで、配線(接続)が見えない」 という疑問にぶつかることがあります。 この記事ではこの現象の理由と、実際にブロックの接続(配線)がどこに記録されているのかを整理して解説します。 なぜNetronで配線が見えないのか? 結論から言うと: safetensorsには「配線情報」が入っていないた
Wan2.1やWan2.2などの動画生成AIを動かそうとすると、必ずセットで必要になるのが UMT5-XXL というモデルです。「テキストエンコーダー」と呼ばれるこのモデル、一体何をしているのでしょうか。 UMT5-XXL の正式名称と意味 正式名称は Unified Multilingual T5 Extra Extra Large(統合多言語T5・超特大モデル)、HuggingFace上の識別子は google/umt5-xxl で

