WAN 2.5 ComfyUI ワークフロー: 安定した結果を得るための最適なノードグラフと設定

WAN 2.5 ComfyUI ワークフロー: 安定した結果を得るための最適なノードグラフと設定

こんにちは、相棒!私はDoraです。その日、デモ用に短い商品ループをステッチしていたのですが、いつもの設定がどんどんずれていって、キャラクターの袖が変わり、背景がパルスして、動きが端でぐらついていました。ひどくはありませんが、気が散ります。定常的な手のような動きをする動画ワークフローが欲しかったのに、推測ゲームのようでした。

この月の数日間(2026年1月)を使って、ComfyUIでWAN 2.5をきれいに動かしました。派手なことはありません。グラフを最小限にして、いくつかの設定をロックし、面白い部分を削ることなく動きを安定させるさまざまな方法をテストしました。以下は、安定したことと、しなかったことです。「WAN 2.5 ComfyUI」を検索していて、見栄えのいいものではなく実用的なものが欲しいのなら、これはコーヒーを片手にお渡しするバージョンです。

最小限のノードグラフ

最初はいくつかの広大なグラフを試しました。キャンバス上では強力に見えましたが、実際には脆いと感じました。私のマシン(RTX 4090、24 GB VRAM)では、WAN 2.5の最も信頼できるセットアップは、意図的につまらないものでした。

最終的には:

  • WAN 2.5のモデルローダー(公式の重みとコンフィグ:起動時に一度ロード)
  • テキストエンコーダー(1つのプロンプト、1つのネガティブプロンプト)
  • シードノード(フレームごとではなく、単一のシード)
  • ビデオ用サンプラー(WANのサンプラーまたはComfyUIの互換性のあるビデオサンプラー)
  • VAE(終わりでデコード:グラフ中盤の再エンコーディングなし)
  • ビデオを保存

以上です。追加のアップスケーラー、ガイダンスアダプター、デノイズブランチはありません。それらが悪いからではなく、手助けなしでWAN 2.5が何をするかを見たいからです。利点は明らかでした:可動部が少なく、びっくりが少ないのです。何かがちらついたら、それは外部ノードではないことを知っていました。

ゼロから始める場合、ComfyUIをフレッシュインストールして、ComfyUI Managerを追加してノード管理を簡単にしてから、公式ソースからWAN 2.5ノードパックを追加します。その後、グラフを飾る衝動に抵抗してください。3~4秒のクリップを控えめな解像度できれいにレンダリングしてください。その後、まだ必要であれば複雑さを追加します。

設定ベースライン

いくつかのベースラインをテストして、クリップがぐらつくまで上下に刻みました。

私の安定した開始点:

  • 解像度:896×504(16:9)。16で割り切れ、VRAMが軽く、動きを判断するのに十分です。
  • 期間:12 fps で 48 フレーム(約4秒)。ドリフトを見つけるのに十分長く、反復するのに十分短い。
  • ステップ:28~32。24未満は動きをぼかす傾向があります:~36を超えるとあまり得られません。
  • CFGガイダンス:4.0~6.0。ほとんど5.0で座っていました。値が高いほどスタイルを強調していますが、マイクロフリッカーが増加します。
  • サンプラー:Euler または DPM++ 2M SDE(ビデオ互換ビルド)。DPM++ はフレーム間でやや安定しているように感じました。
  • デノイズ強度:テキストから動画で 0.85~0.9。画像に条件付けされている場合、0.7~0.8 に下げました。
  • シード:固定。クリップ全体で同じシード。

4090では、このベースラインは約2~3分で約4秒をレンダリングしました。午後借りた4080 Superでは、3~4分に近かったです。1024×576にバンプすると、レンダリング時間は約20~30% 増加し、VRAM使用は17 GBを超えました。

小さな注記:再生用に高いfpsを追求している場合(たとえば24)、12 fpsで生成して後で補間する方が、直接24でレンダリングしようとするより結果が良いことがわかりました。サンプラーは一貫性を保つのが簡単でした。


一貫性戦略

見た目の一貫性を保つことは基本的に3つのレバーです:シード、条件付け、およびプロンプトをどの程度積極的にプッシュするか。

私に効果的だったこと:

  • シードをロックしてそれに触れないでください。1回の実行で、フレームごとのシーディングを誤って有効にしてしまい、即座にワードローブのカオスが発生しました。
  • プロンプトを短く保ってください。WAN 2.5は、積み重ねられた形容詞よりも明確な名詞と穏やかなスタイルのヒントでより幸せに見えます。「雨の降る通りに紙の船、柔らかい光、ミュートカラー」は段落よりもうまくいきました。
  • 参照画像が必要な場合にのみ使用してください。画像条件付けは、キャラクターデザイン(髪、衣装)を固定するのに役立ちましたが、時々モーションを過度に制限していました。使用した場合、デノイズ強度とCFGを約0.5低くしました。
  • ネガティブプロンプトはフリッカーを落ち着かせることができます:「ハード照明、点滅ハイライト、レンズワーピング」。嫌いなすべてのものを叫ばないでください:3~6項目で十分です。

また、フレーム全体でポーズをロックするためにIP-Adapterブランチを試しました。それは「スティルライフ、小さなモーション」シーン(蒸気、波紋)に役立ちましたが、キャラクターモーションの場合、時々ジェスチャーをつぶしていました。優れたツール、状況的なペイオフ。


動きの安定性

これが最もそれらしい部分でした。すべてをゼリーに変えずに滑らかな動き。

重要だった小さな調整:

  • ガイダンス制約。CFGを5.0付近に保つことで、フレーム間の小さな照明ポップが減少しました。
  • ステップカウント上限。~36ステップを越えると、鮮明な静止画が得られましたが、時間とともにマイクロジッターが増加しました。
  • サンプラー選択。DPM++ 2M SDE は一貫してパンと低速ズームで穏やかでした:Euler はより活発に感じましたが、ハイコントラストエッジでちらつきました。
  • プロンプト動詞。「揺らぐ、手持ち、カオス」などの単語が機能します。その見た目が欲しくない限り、回避しました。
  • 光源。硬いポイントライトと鏡面反射ハイライトはシマーを励ましました。「曇り」または「ソフトボックス照明」は表面を安定させました。

もっと握力が必要な場合、グラフ内ではなくレンダリング後に2つのことを追加しました:

  • 低強度でのライト定フリッカーパス(DaVinci Resolveの定フリッカーまたはFFmpegフィルター)。
  • モーション補償補間による 12→24 fps フレーム補間。生成中にモデルを混乱させることなく、認識されたモーションを滑らかにしました。

1つの驚き:カメラの押し(遅いドーリーイン)は横方向のパンより一緒に持ちこたえました。左から右へのパンが看板でティアリングを続けていたら、プロンプトを「カメラは優しく前に移動します」と言い直して、同様の感覚でより清潔な結果を得ました。


バッチレンダリング

バッチ処理が役立つとは思いませんでしたが、主に意思決定のためには役立ちました。4~8つのシードを連続して実行すると、どのプロンプトに本当の足があるかが明らかになりました。

私が使ったもの:

  • 同じグラフに供給する単純な「シード(バッチ)」ノード。
  • キュー長さ4~6ジョブ。それ以上では、正当な理由なく熱を上げ始めました。
  • バッチ全体で同じベースライン設定:シードのみが変更されました。

数晩の実行からのヒント:

  • バッチ内で期間を短く保つ(2~3秒)。1秒で、シードが約束されているかどうかが判断できます。
  • 情報的なファイル名で保存:プロンプトスラッグ+シード+解像度+fps。動画メタデータにもシードを追加しました。将来の私が現在の私に感謝するでしょう。
  • VRAMスパイクする場合、バッチサイズを1に減らしますが、シードリストを保持します。それでもスピリットではバッチです。

異なるCFG値をバッチで処理しようとしました。機能しましたが、比較が混乱していました。バッチごとに1つの変数を分離することで、より清潔な読み出しを得ました。


一般的なエラー

いくつかの繰り返しの犯人が現れました。劇的ではありませんでしたが、それを書き留めるまで時間をかけました。

  • CUDAメモリ不足。通常、解像度をちょうど崖の過去に押しのけた兆候。修正:幅/高さを64ピクセル落とす、ステップを4~6減らす、またはVRAMをかじる何かを閉じる(ブラウザタブはカウントされます)。半精度(fp16)が役立ちました。
  • モデル/コンフィグの不一致。WAN 2.5ローダーとそのコンフィグが不一致の場合、形状またはdtypeエラーが発生します。ノードパックを再インストールして正確なコンフィグを再選択することで修正されました。
  • 割り切れない寸法。ビデオデコーダーはより目立ちます。幅と高さの16の倍数に固執しています。
  • サポートされていないコーデック。ビデオ保存ノードが時々デフォルトでシステムFFmpegが好きではないコーデックに。緑のフレームを避けるために、H.264をyuv420pで明示的に設定しました。
  • 壊れたプロンプト。過度に指定されたネガティブはいくつかのクリップで顔を崩しました。「変形、醜い、醜い」(通常のボイラープレート)を削除すると、実際にいくつかのクリップの安定性が向上しました。

ログがうるさくなったとき、最初に2つのことをチェックしました:ComfyUIバージョン(数週間後ろにいる場合は更新)、およびNVIDIAドライバー。私の奇妙さの3分の2は私がそこに住んでいました。立ち往生している場合、ComfyUI GitHubの問題は、エラーパターンについて驚くほど率直です。 ドライバーとVRAM制限の代わりにプロンプトとモーションに焦点を当てることを好む場合、それは私たちがWaveSpeedを構築した理由の1つです。WAN 2.5のような安定したAPIレイヤーを通じてモデルへのマネージアクセスを提供しています。そのため、ローカルスタックを維持することなく生成できます。


エクスポート

1つのクリーンパスを選んだら、エクスポートを過度に考えるのを止めました。

ドラフト用に使用するもの:

  • コーデック:H.264
  • ピクセルフォーマット:yuv420p
  • FPS:生成に一致(通常12)
  • ビットレート:896×504で一定8~12 Mbps

編集用に、最初にロッシーなエクスポートして、キーパーのみを上変換します:

  • ポストで 12→24 fps にフレーム補間。
  • グレードフレンドリーなファイルが必要な場合、ファイルのProRes 422 LTに最終的にリレンダリングします。重くなりますが、カラーパスの方がはるかに優れています。

再レンダリングを節約した2つの小さなメモ:

  • 色のシフト:一部のプレイヤーはyuv420pで黒を持ち上げます。VLCでは間違っているが、Resolveでは問題なく見える場合、プレイヤーです。
  • オーディオ:ビデオ保存ノードはそれを追加しません。一時的なサウンドトラックが必要な場合、フレームメックスを使用します。

また、シード、ステップ、CFG、および解像度をファイル名とサイドカーJSONに埋め込みます。これは退屈なブックキーピングで、将来の考古学を防ぎます。


テンプレートの考え

現在保持しているテンプレートは小さく、3つのトグルがあります。

グラフスケルトン:

  • WAN 2.5ローダー→テキストエンコード→固定シード→ビデオサンプラー→VAEデコード→ビデオ保存

3つのオプションブランチをオン/オフに切り替えることができます:

  • 参照画像条件付け。安定したキャラクターが欲しい場合。デノイズとCFGの自動ドロップが付属しています。
  • プロンプトスケジュール。クリップを使用した単純なビートのための穏やかな2段階プロンプト(例:1秒後の「雨が始まる」)。フリッカーを避けるため、トランジションを柔らかく保ちます。
  • バッチシードリスト。3~8つのシードを貼り付ける単一フィールド。

焼き込まれたデフォルト:

  • 12 fpsで896×504、48フレーム、CFG 5.0、ステップ30
  • シードを含むファイル名テンプレートを使用したH.264エクスポート(yuv420p)

それは光沢を意外と反対であり、それはポイントです。同じ習慣に向かって私を突き動かすテンプレートが欲しい:最初は短いクリップ、一度に1つの変数、進行中のメモ。

これにフィット:定常性を驚きより優先する人、繰り返し可能なショットを作る製品チーム、予測可能な見た目が必要なソロクリエーター、そして大きなグラフが力を与えるより疲れているの仲間。

誰がそれを嫌うか:最大スライダーとカオス的な新興の見た目が大好きなら、バウンスオフします。それで大丈夫です。

なぜそれが私にとって重要なのか:ComfyUIのWAN 2.5は最終的に私の注意を尊重しているように感じました。ノッブが少なく、トレードオフが明確で、構築するのに十分信頼できる結果。

WANがより高い解像度と長いシーケンスでどのように動作するか、まだ好奇心が強いですが、急いでいません。私にとって静かな勝利は、小さな変更、より穏やかなCFG、固定シード、より柔らかい照明が、英雄的なノードよりも安定性の方がはるかに多くを行ったことに気付いたことでした。私は常にトリックを期待していました。それはシステムになってしまいました。