ComfyUI-LTXVideo拡張機能: LoRAサポート、ワークフロー、そして必要な時

ComfyUI-LTXVideo拡張機能: LoRAサポート、ワークフロー、そして必要な時

私が初めてComfyUIのLTXVideoを試した時、新しい機能を追い求めていたわけではありませんでした。ラフなストーリーボードを1フレームずつ監視することなく、確実にモーションに変える方法が欲しかっただけです。私の小さな摩擦:長い一日の後、もう一つの「ノード欠落」エラー。ウィンドウを閉じかけました。代わりに、1週間試してみることにしました(2026年1月初旬)。いくつかの実際のプロジェクトで実行してみました:12秒の製品ループ、コースの教材スニペット、それとテクスチャーからモーションへの実験(賢く見えるか、奇想天外に見えるかのどちらか)。 何を見つけたかというと、魔法ではありませんでした。しかし、静かな場所での作業をいくつか軽くしてくれました。これが通常、私が探している信号です。

コア機能 vs 拡張機能:何が違うのか

「ComfyUIでLTXVideoサポート」について話している人々をよく見かけましたが、何がネイティブで何が追加部品が必要なのか、はっきりしていませんでした。実際に気づいたことはこれです。

  • コア(ComfyUIベース: 一般的なテキストから画像/ビデオへのフロー、スケジュール付きサンプラー、コンディショニング管理を配線できます。ベースアプリはデータ配線、フレームプレビュー、実行の再現性を保つのに非常に優れています。しかし、デフォルトでは特殊なLTX-Videoノードを搭載していません。
  • 拡張機能(LTXVideoカスタムノード): これはLTX-Videoアーキテクチャの周辺に構築されたモデル対応ノード(ローダー、サンプラー、コンディショニングブロック)を追加します。拡張機能はモデルのモーション長、コンテキストウィンドウ、汎用ノードに綺麗にマップしない小さな制約を理解しています。

この違いは、手動グルーを減らそうとする時に現れます。コアノードだけでは、テンソル形状を弄んだり、デフォルトを推測したり、形状の不一致に当たったりしていました。拡張機能がインストールされると、グラフは短くなり、エラーは減りました。まだ考える必要がありましたが、配管について考える必要はありませんでした。

小さな例:シーン一貫性のある照明で8~12秒のループを構築しました。コアのみの場合、安定させるのに約45分かかりました。拡張機能版は2回目でクリーンに実行されました(約15分)。事前配線されたサンプラーとビデオアセンブラーがフレームアラインメントを処理し、私が弄らなくても済みました。

だから、評価している場合:フルコントロール好きで配線が気になるなら、コアで十分です。拡張機能は手動チューニングされたパイプより反復可能な実行を大切にする場合です。


拡張機能が追加するもの(ワークフロー/ノード/LoRA)

例のグラフをクリックした時、大して期待していませんでした。基本的にスクリーンショットである「スターター」ワークフローを見すぎていました。これらはそれより良かったです。

私を助けたもの:

  • 目的ビルド型ノード: LTX-Videoのモデルローダー、奇数フレーム数を避けるモーション長セレクタ、モデルのタイミングの甘いスポットを尊重するサンプラー。これらは通常、失敗したレンダーの後にのみ現れるいくつかの落とし穴を取り除きます。
  • ワークフロー例: 3つは何度も戻ってきました。テキストからビデオへのベース、モーション注入を伴う画像からビデオへ、LoRAを使用したスタイル転送。それぞれは開始するのに十分明確ですが、部品を交換できないほど厳密ではありません。
  • LoRAフック: 拡張機能はLoRA強度と組み合わせをきれいに公開します。スタイルLoRAと軽いアイデンティティLoRAをスタックして、まだモーションを安定させることができました。確かに、初期のビデオセットアップではこれは珍しいです。

小さなサプライズ:デフォルトのカラーハンドリングは、試した他のほとんどのオープンビデオモデルより落ち着いているように感じました。ブルーは爆発しませんでした。肌は信じられる範囲内にとどまりました。まだ露出を調整する必要がありましたが、彩度と戦っていませんでした。

当たった制限

  • 長いシーケンス(約12~16秒以上)は、アンカーキーフレームを導入したり、実行を分割したりしないと、ドリフトしました。この段階では正常ですが、注意する価値があります。
  • 重いLoRAスタックはモーションを揺らすことができます。2つは問題ありませんが、3つは強度をアンダークランクしない限り危険です。

インストール&アップデート手順

準備

  • ComfyUIを最近のビルドに更新します。私は両方のマシンで2026年1月のナイトリービルドを使用しました。
  • Python 3.10~3.11が最もうまく機能しました。マシンごとに新しいvenvを保つようにしました。

LTXVideo拡張機能のインストール

  • ComfyUI-Managerがある場合は使用します:「LTXVideo」または「ComfyUI-LTXVideo」を検索してインストールします。
  • 手動ルート:repoをComfyUI/custom_nodesにクローンします。その後、環境内にrequirements(pip install -r requirements.txt)をインストールします。

モデル

  • LTX-Videoチェックポイント(複数可)を拡張機能が期待する場所に配置します。ほとんどのバージョンはmodels/ltxvideoまたはmodels/checkpointsを探します。ノードは通常、ホバーで正確なパスを教えてくれます。
  • LoRAを使用している場合は、models/loras(またはノードがデフォルトとしてリストしているもの)に配置します。

CUDAとランタイム

  • CUDA 12.x搭載LinuxおよびPyTorch 2.3+は円滑に機能しました。macOSではMetalが機能しましたが、バッチサイズを小さく保ちました。
  • 最初の実行でメモリスパイクが表示される場合は、モーション長を減らすか、ノードが公開する場合は低いデコード精度を設定します。

アップデート

  • 拡張機能repoから最新をプル。主なコミットがランドした時、requirementsを再インストール(torch-visionの不一致とprotobufバンプに遭遇:両方ともクリーン再インストールで修正)。
  • アップデート後、ノードが表示されない場合、ComfyUIキャッシュをクリア。クイック再起動は古いインポートを解決することが多いです。

時間コスト:最初のインストールはクリーンなLinuxボックスで約20分、macOSでは約30分かかりました。いくつかのメタルビルドを再リンクする必要があったためです。アップデートは依存関係が変更されない限り数分でした。


ワークフロー例のウォークスルー

3つのワークフローを数回実行し、それらがどの程度安定しているかを見るために調整しました。

1. テキストからビデオへ(ベースライン)

  • セットアップ: プロンプト、ネガティブプロンプト、LTX-Videoローダー、モデルのサンプラー、短い辺で512~768のビデオライター。モーション長を8~12秒に保ちました。
  • 観察: 最初のパスは正確なペーシングを達成することはめったにありませんでしたが、安定した「ベーステイク」をくれました。マイナープロンプト編集を伴う2番目のパスはほとんどの問題を修正しました。各レンダーはA6000で2~4分、M3 Maxで約6~8分でした。
  • 小さなヒント: モーションがふわふわしているように見える場合は、時間ガイダンスを締めるか、CFGをちょっと減らしてください。私にとって、4.5~6.5が使用可能なバンドでした。

2. モーション注入を伴う画像からビデオへ

  • セットアップ: 単一の参照画像と、テクスチャ一貫性を保つための低強度スタイルLoRA。拡張機能のモーションノードを使用してカメラドリフトをまぎらせ、動きを発明させませんでした。
  • 観察: これは最初の試行で時間を節約しませんでした。私はオーバーチューンしました。3番目の実行で、メンタルロードを低下させたことに気づきました。チェックするアーティファクトが少なく、「コーナーに何があるのか?」という驚きが少なくなりました。
  • 実践的な注記: 被写体がフレーム3~5で歪む場合は、中間シーケンスのヒント画像またはアンカーフレームを追加します。10秒クリップに2つのアンカーを使用しましたが、ロックインされたように感じました。

3. LoRA(軽いアイデンティティ付き)でスタイル

  • セットアップ: ベースプロンプト、0.6~0.8のスタイルLoRA、0.2~0.3のアイデンティティLoRA、保守的なモーション。
  • 観察: 組み合わせは予想より良く保ちました。スタイルで0.8より強いテクスチャを「艶がかった」開始し、ポスターには素敵で、モーションには奇妙でした。アイデンティティを低く保つことは不気味なシフトを避けました。
  • エクスポート: グレーディング用にProResに書き込みました。H.264はクイックチェックに問題ありませんが、Resolveでライトパスを行った場合、色がより良く見えました。

実行全体を通じて、汎用ノードを接ぎ木するのと比較して、クリップあたり約15~20分節約しました。より大きな勝利は再起動の削減でした。より少ないティンカリング、より多くの決定。


LoRA&IC-LoRAの基本

私は通常、必要な時だけLoRAに手を出します。LTXVideoを使用して、特に一貫性のための追加ステップの価値があります。

  • LoRA: 軽いスタイリッシュな指紋と考えてください。ビデオでは、静かに押してください。~0.8以上の強度は、モーションが蓄積するにつれて脆く見えます。
  • アイデンティティLoRA: フレーム全体でキャラクターまたは製品を安定させておくのに役立ちます。0.15~0.35の範囲の値が好きでした。
  • IC-LoRA(画像条件付きLoRA): これは私が実用的な価値を最も見つけたところです。きれいな参照画像をIC-LoRAに供給することで、シーンを凍結することなく詳細(ロゴ、顔)が安定しました。時々、脇角をセカンダリキューとして1つのくっきりした正面画像を使用しました。

実際に重要なもの:

  • きれいな参照は巧妙なプロンプトを打ち負かします。ゴミはゴミとして入出力されており、モーションではより顕著に表示されます。
  • 少なく混ぜ、軽くチューン。2つのLoRA軽く適用されたは、3つが互いに戦うより良く機能しました。
  • マイクロジッターが表示される場合は、シードを再シード。新しいシードと同じアンカーはしばしば小さな顔のちらつきを解決しました。

「ノード欠落」修正

テスト中に「ノード欠落」の3つのフレーバーに当たりました。劇的ではありませんでしたが、フローを破ります。

  • 拡張機能が読み込まれていません: LTXVideoフォルダがComfyUI/custom_nodesの下にあり、__init__.pyがあることを確認します。ComfyUIを再起動します。ログにインポートエラーが表示される場合は、そのノードの要件を再インストールします。
  • 依存関係のドリフト: Torch/CUDAの不一致はインポートエラーとして表示されます。拡張機能のREADMEにリストされているPyTorchおよびCUDAバージョンを調整します。新しいvenvは絡んだものをデバッグするより速いです。
  • 古いワークフロー、新しいノード: 一部のグラフが名前変更されたノードを参照します。JSONを開き、ノードクラスを検索し、新しい名前にマップします。拡張機能CHANGELOGは通常これらに注意します。

クイックサニティチェック:

  • ComfyUI-Managerを更新し、「アップデートスキャン」を実行します。
  • ComfyUIのキャッシュをクリアして再起動します。
  • ロードノードのモデルパスを確認します。欠落しているチェックポイントはUIの観点から欠落しているノードのように見えます。

WaveSpeedでこれらのワークフローを適用

クラウド実行を試して、これが私のデスクからどのように変換されるかを確認しました。WaveSpeedで、RTXクラスのGPUを備えたComfyUIワークスペースを立ち上げ、同じ方法でLTXVideo拡張機能をドロップしました。 このルートに行く場合は2つのメモ

  • モデルを整理しておきます:最初にLTX-VideoチェックポイントとLoRAを期待されるフォルダ(models/ltxvideomodels/loras)に同期し、例のグラフを開きました。パスが一致したら、驚きはありません。
  • 実行長:クラウドGPUは、VRAMを汗ずに高解像度で12~16秒のクリップをテストさせました。それ自体はドリフトを修正しませんでしたが、反復を速くしました。3つのテイクを平行でレンダリングし、キーパーを選びました。

ラップトップで作業している場合、これはローカルインストールにコミットする前にアイデアをテストする低ストレス方法です。あなたの走行距離は異なるかもしれませんが、それは私にいくつかの深夜のコンパイルループを節約しました。


小さな、継続的な考え:ComfyUIの内部LTXVideoは最初に驚かそうとしません。それはあなたが一度に保つ必要がある物事の数を減らすだけです。忙しい日々には、それで十分です。