<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>カテゴリー:動画 &#8211; AIディベロッパーblog</title>
	<atom:link href="https://aidev.bluegarage.site/blog/category/%E5%8B%95%E7%94%BB/feed/" rel="self" type="application/rss+xml" />
	<link>https://aidev.bluegarage.site/blog</link>
	<description>AI技術を使った様々な開発のTIPSや技術のブログです</description>
	<lastBuildDate>Mon, 06 Apr 2026 05:40:55 +0000</lastBuildDate>
	<language>ja</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	
	<item>
		<title>WAN 2.1の速度向上Self-Forcing とは何か？</title>
		<link>https://aidev.bluegarage.site/blog/2026/04/06/wan-2-1%e3%81%ae%e9%80%9f%e5%ba%a6%e5%90%91%e4%b8%8aself-forcing-%e3%81%a8%e3%81%af%e4%bd%95%e3%81%8b%ef%bc%9f/</link>
				<pubDate>Mon, 06 Apr 2026 05:40:55 +0000</pubDate>
		<dc:creator><![CDATA[aidevadmin]]></dc:creator>
				<category><![CDATA[動画]]></category>
		<category><![CDATA[ControlNet]]></category>
		<category><![CDATA[gpu]]></category>
		<category><![CDATA[LLM]]></category>
		<category><![CDATA[LoRA]]></category>
		<category><![CDATA[safetensors]]></category>
		<category><![CDATA[tensor]]></category>
		<category><![CDATA[vae]]></category>
		<category><![CDATA[wan]]></category>
		<category><![CDATA[ライセンス]]></category>

		<guid isPermaLink="false">https://aidev.bluegarage.site/blog/?p=9608</guid>
				<description><![CDATA[WAN 2.1（Wan-AI製）は、中国アリババグループ傘下の研究チームが開発・公開したオープンソースの動画生成AIモデルです。テキストから動画を生成するT2V（Text-to-Video）、画像から動画を生成するI2V（Image-to-Video）、動画編集など複数のタスクに対応しており、2025年初頭に公開されて以来、ComfyUI ユーザーを中心に急速に普及しました。 モデルの規模は 1.3B（13億パラメータ） と 14B（140億パラメータ） の2種類が存在します。1.3Bモデルは VRAM 約8GB で動作し、コンシューマー向けGPU（RTX 3060以上）でも利用可能な点が大きな特徴です。一方、14Bモデルは720p動画の高品質生成が可能ですが、約40GBのVRAMを必要とします。 WAN 2.1の主な強みは以下のとおりです。 高品質な480p/720p動画生成：オープンソースモデルとしてはトップクラスの品質 中国語・英語テキストの映像内生成：ビジュアルテキスト生成に初めて本格対応 VACE対応：ControlNet的な参照動画による動き制御が可能 強力なVAE：1080P動画をリアルタイムで [&#8230;]]]></description>
									</item>
		<item>
		<title>WanによるAI動画生成で「プロンプトを書いたのに人物が全然動かない」場合のパラメーターの見直し</title>
		<link>https://aidev.bluegarage.site/blog/2026/04/02/wan%e3%81%ab%e3%82%88%e3%82%8bai%e5%8b%95%e7%94%bb%e7%94%9f%e6%88%90%e3%81%a7%e3%80%8c%e3%83%97%e3%83%ad%e3%83%b3%e3%83%97%e3%83%88%e3%82%92%e6%9b%b8%e3%81%84%e3%81%9f%e3%81%ae%e3%81%ab%e4%ba%ba/</link>
				<pubDate>Thu, 02 Apr 2026 01:07:57 +0000</pubDate>
		<dc:creator><![CDATA[aidevadmin]]></dc:creator>
				<category><![CDATA[動画]]></category>
		<category><![CDATA[CUDA]]></category>
		<category><![CDATA[inference]]></category>
		<category><![CDATA[LoRA]]></category>
		<category><![CDATA[pipeline]]></category>
		<category><![CDATA[Python]]></category>
		<category><![CDATA[transformer]]></category>
		<category><![CDATA[vae]]></category>
		<category><![CDATA[wan]]></category>

		<guid isPermaLink="false">https://aidev.bluegarage.site/blog/?p=9602</guid>
				<description><![CDATA[WanによるAI動画生成で「プロンプトを書いたのに人物が全然動かない」という経験はありませんか？この記事では、Wanで人物の動きを強く引き出すプロンプトのコツと、シンプルな実行コードをまとめて解説します。 なぜ人物が動かないのか？ プロンプトの書き方以前に、パラメータ設定が原因でほぼ動かなくなるケースが多いです。まず以下を確認してください。 パラメータ NG値 推奨値 guidance_scale 1～２（低すぎる） 5.0〜7.0 num_inference_steps 8（少なすぎる） 20〜30 DMD蒸留LoRA 常時ON まず外して試す guidance_scale が低いとモデルがプロンプトをほぼ無視します。まずここを直すだけで改善することが多いです。 プロンプトで動きを引き出す5つのコツ 1. 動作を時系列で分解して書く 「歩く」だけでなく、身体の動きを順番に記述すると効果的です。 ❌ "The woman walks." ✅ "She lifts her right foot, strides forward, swings her arms, walking briskly." 2. 副詞・ [&#8230;]]]></description>
									</item>
		<item>
		<title>WAN動画生成で緑のブロックノイズが出る原因と解決法【テキストエンコーダーの選び方】</title>
		<link>https://aidev.bluegarage.site/blog/2026/03/28/wan%e5%8b%95%e7%94%bb%e7%94%9f%e6%88%90%e3%81%a7%e7%b7%91%e3%81%ae%e3%83%96%e3%83%ad%e3%83%83%e3%82%af%e3%83%8e%e3%82%a4%e3%82%ba%e3%81%8c%e5%87%ba%e3%82%8b%e5%8e%9f%e5%9b%a0%e3%81%a8%e8%a7%a3/</link>
				<pubDate>Sat, 28 Mar 2026 11:25:48 +0000</pubDate>
		<dc:creator><![CDATA[aidevadmin]]></dc:creator>
				<category><![CDATA[動画]]></category>
		<category><![CDATA[Hugging Face]]></category>
		<category><![CDATA[PyTorch]]></category>
		<category><![CDATA[safetensors]]></category>
		<category><![CDATA[tensor]]></category>
		<category><![CDATA[vae]]></category>
		<category><![CDATA[wan]]></category>

		<guid isPermaLink="false">https://aidev.bluegarage.site/blog/?p=9592</guid>
				<description><![CDATA[WAN 2.1で動画生成を試みたとき、出力が緑がかったブロックノイズのような壊れた画像になった経験はないでしょうか。この問題の原因は、テキストエンコーダーの種類の間違いとFP8量子化の非互換性の組み合わせにあります。 原因①：テキストエンコーダーのアーキテクチャが違う よく混同されるのが、以下の2つのエンコーダーです。 モデル 使うT5エンコーダー FLUX T5-XXL（標準） WAN 2.1 umt5-XXL（UniMax T5、別アーキテクチャ） t5xxl_fp8_e4m3fn.safetensors は主に FLUX向け に配布されているファイルです。WAN 2.1が期待する umt5-xxl とはアーキテクチャが異なるため、テキスト埋め込みの次元やAttentionの構造が合わず、エンコーダーの出力が壊れます。 原因②：FP8 e4m3fn の数値表現の問題 FP8 e4m3fn は非常に狭いダイナミックレンジ（約 -448 〜 +448）しか持ちません。 FP16：約 ±65,504 BF16：約 ±3.4×10³⁸ FP8 e4m3fn：約 ±448（極端に狭い） WANのランタイムがFP8の [&#8230;]]]></description>
									</item>
		<item>
		<title>WAN・Qwenで使う Guidance Scale と True CFG とは？理論をわかりやすく解説</title>
		<link>https://aidev.bluegarage.site/blog/2026/03/22/wan%e3%83%bbqwen%e3%81%a7%e4%bd%bf%e3%81%86-guidance-scale-%e3%81%a8-true-cfg-%e3%81%a8%e3%81%af%ef%bc%9f%e7%90%86%e8%ab%96%e3%82%92%e3%82%8f%e3%81%8b%e3%82%8a%e3%82%84%e3%81%99%e3%81%8f%e8%a7%a3/</link>
				<pubDate>Sun, 22 Mar 2026 02:44:59 +0000</pubDate>
		<dc:creator><![CDATA[aidevadmin]]></dc:creator>
				<category><![CDATA[動画]]></category>
		<category><![CDATA[Guidance Scale]]></category>
		<category><![CDATA[Qwen]]></category>
		<category><![CDATA[wan]]></category>

		<guid isPermaLink="false">https://aidev.bluegarage.site/blog/?p=9568</guid>
				<description><![CDATA[画像・動画生成AIを使っていると必ず出てくる Guidance Scale（CFG Scale）と、最近よく見かける True CFG。「なんとなく数値を変えて試している」という方も多いと思いますが、この記事ではその仕組みと、実用的な設定値を口語でわかりやすく解説します。 そもそも拡散モデルは何をしているのか WAN や Qwen ベースの生成モデルは、「ノイズだらけの画像から、少しずつノイズを取り除いて絵を作る」 という仕組み（拡散モデル）で動いています。 イメージとしては、砂嵐のかかったテレビ画面から、少しずつ砂を取り除いていくような処理です。そのとき「どの方向にノイズを取り除くか」をプロンプトで誘導しているのが CFG（Classifier-Free Guidance）の役割です。 Guidance Scale とは何か Guidance Scale（CFG Scale）は、ひとことで言うと 「プロンプトにどれだけ縛られるか」のアクセル です。 内部的には次のような計算をしています： 最終的な進む方向 ＝ 条件なし予測 ＋ scale × （条件あり予測 − 条件なし予測） 「プロンプトありの予測」と「 [&#8230;]]]></description>
									</item>
		<item>
		<title>Wan動画生成AIに使われている「UMT5-XXL」とは何か？</title>
		<link>https://aidev.bluegarage.site/blog/2026/03/21/wan%e5%8b%95%e7%94%bb%e7%94%9f%e6%88%90ai%e3%81%ab%e4%bd%bf%e3%82%8f%e3%82%8c%e3%81%a6%e3%81%84%e3%82%8b%e3%80%8cumt5-xxl%e3%80%8d%e3%81%a8%e3%81%af%e4%bd%95%e3%81%8b%ef%bc%9f/</link>
				<pubDate>Sat, 21 Mar 2026 08:13:39 +0000</pubDate>
		<dc:creator><![CDATA[aidevadmin]]></dc:creator>
				<category><![CDATA[動画]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[gpu]]></category>
		<category><![CDATA[safetensors]]></category>
		<category><![CDATA[tensor]]></category>
		<category><![CDATA[transformer]]></category>
		<category><![CDATA[wan]]></category>
		<category><![CDATA[エラー]]></category>

		<guid isPermaLink="false">https://aidev.bluegarage.site/blog/?p=9563</guid>
				<description><![CDATA[Wan2.1やWan2.2などの動画生成AIを動かそうとすると、必ずセットで必要になるのが UMT5-XXL というモデルです。「テキストエンコーダー」と呼ばれるこのモデル、一体何をしているのでしょうか。 UMT5-XXL の正式名称と意味 正式名称は Unified Multilingual T5 Extra Extra Large（統合多言語T5・超特大モデル）、HuggingFace上の識別子は google/umt5-xxl です。 名前を分解すると次のようになります。 略称 正式名 意味 U Unified 複数の言語・タスクを統合 M Multilingual 多言語対応（日本語・中国語・英語など100言語以上） T5 Text-to-Text Transfer Transformer Googleが開発したベースアーキテクチャ XXL Extra Extra Large T5ファミリーの中で最大サイズ（約110億パラメータ） T5ファミリーにはサイズ別にSmall・Base・Large・XL・XXL の5段階があり、UMT5-XXL はそのトップに位置する 約110億パラメータ（11B） の最大 [&#8230;]]]></description>
									</item>
	</channel>
</rss>
