完全無知から口パク動画！Stable Diffusion・ComfyUI・Wan2.2-S2Vでついに成功

「YouTube用にAIで口パク動画が作れれば量産できるんじゃ？」
そんな軽い思いつきから、この挑戦は始まりました。

きっかけ

最初はネットの動画生成ページを使って試してみました。
画像と音声を入れるだけで、すぐに動画が出てきて――
「すげぇ！」と感動。

ところが、すぐにクレジットが切れて「課金してください」の嵐。
「これ、ローカルでできないのか？」と調べた結果、Stable Diffusionに出会いました。

「あるやん！しかも無料で！」と喜び、ChatGPTに聞きながら導入。
ついでに SadTalker などを試しましたが――
まともに使える動画は一つもできない。

何度も挑戦しましたが満足いく結果は得られず、正直、途方に暮れてしまいました。

そんなある日、YouTubeのおすすめに「ComfyUIで画像生成ができる」という動画が表示されました。
「ComfyUIって何だ？」と調べてみると、Stable Diffusionをノードベースで操作できる便利なツールだと判明。

さらに、StabilityMatrixというツールを使えば、驚くほど簡単に導入できることがわかりました。
実際に試してみると、あっという間にComfyUIが起動。
→ StabilityMatrixはこちら

ただし、これでいきなり口パク動画が作れるわけではなく、またもや壁に直面。
それでもStable Diffusionより遥かに便利で、ついつい「ムフフな画像」を量産してしまい脱線することも（笑）。

気を取り直して、ComfyUI版のSadTalkerやLatentSyncなど、片っ端から試しました。
わからないことはChatGPTに相談しながら進めましたが……

一回もまともに動かない。
エラー、クラッシュ、モデルが読み込めない。
数日が過ぎても成果ゼロで、再び諦めムードに。

そんな時に見つけたのが、Wan2.2-S2V Audio-Driven Video Generation。
「どうせまた難しいんだろう」と思いつつページを開くと、なんと導入方法が丁寧に書かれており、ワークフローもすべて揃っていました。
→ Wan2.2-S2V公式チュートリアルはこちら

試しに導入してみると――
信じられないくらいあっさり成功！

イラスト1枚と音声を入力するだけで、当初の目標だった「口パク動画」を生成できたのです。
しかも想像以上のクオリティでした。

口パクが最後合ってないですね…

最初は「量産できたら便利じゃね？」という軽いノリから始まった挑戦。
課金サービスに疲れ、Stable Diffusionに迷い込み、ComfyUIで右往左往。
数々の失敗を経て、最終的にWan2.2-S2Vでようやく成功できました。

筆者はいまでも完全な初心者ですが、それでも無事にイラストから口パク動画を作れるようになっています。
この記事は「何もわからないけどやってみたい」という人にこそ読んでほしい内容です。