LTX-2.3：Lightricksの22Bビデオモデルの新機能（2026年）

こんにちは、みなさん。Doraです。先週、ある小さな出来事がきっかけで LTX‑2.3 を試すことになりました。ジャケットのジッパーが生地に溶け込んでしまう4秒のクリップです。新しいモデルを求めていたわけではありません。ただ、1時間もいじることなく、ジッパーをジッパーらしく見せたかっただけです。そこで、ある夜に時間を作り、LTX‑2 から使ってきたいくつかの同じプロンプトとオーディオキューを試してみました。以下のメモは機能のツアーではありません。このリリースが実際に私の作業を変えた部分、そして変えなかった部分についてです。

LTX-2 vs LTX-2.3 一目でわかる比較

始める前に持っておきたかったスナップショットです。私が観察したことと、リリースノートに記載されていることを共有します。おおよその値が含まれている場合、それは意図的なものです。

パラメータ	~10〜14B（旧世代スケール）	~22B（ベンダー公表：より大きなコンテキスト）
VAE	標準VAE：マイクロディテールが柔らかめ	新しい高忠実度VAE：エッジがシャープ、グラデーションがクリーン
テキストエンコーダー	プロンプト追従性は良好：小さなオブジェクトでやや曖昧さあり	小さなオブジェクトのグラウンディングとスタイル継続性が改善
オーディオ	基本的なオーディオコンディショニング：フェージング/ワブルが発生することあり	オーディオレイヤーを再構築：コンディショニングがクリーン、アーティファクトが減少
ベース/出力	720pベースで安定：ポートレートはハック経由でサポート	ネイティブ9:16ポートレート：同じベースだがアップスケーラーが改善
新機能	/	オーディオtoビデオの改善、空間・時間的アップスケーラー、24/48 FPSオプション

この表から2つの重要なポイント：**VAEのアップグレードはビジュアル面での静かな主役であり、**オーディオスタックはより安定しています。パラメータ数の増加は一貫性に貢献しますが、ストーリーボードロジックや正確なタイポグラフィを魔法のように修正するわけではありません。

新しいVAE — シャープなファインディテールが出力に何をもたらすか

LTX‑2では、ファインテクスチャがフレーム間で「呼吸」するのをよく見かけました。フレーム12では正しく見えていた生地の粒子感が、フレーム17ではにじんでしまうことがありました。LTX‑2.3の新しいVAEでは、エッジとマイクロテクスチャがより一貫して保たれます。 違いはネオンサインのように明らかではありません。小さな煩わしさがなくなった、という感じです。

実際には：

髪の毛やまつ毛は、動きが加速してもすぐに固まらなくなりました。
クロームのエッジが、膨らむことなくタイトなハイライトを保ちます。
空や影のグラデーションに出るバンディングが減りました。

最初から時間の節約になったわけではありません。通常のデノイズとシードのスイープは続けました。しかし、3回試した後、ジュエリーやジッパーの手動クリーンアップマスク作業をやめました。これは「時間の節約」ですが、ゆっくりと積み重なる形で：10秒のクリップあたり約6〜8分ほどです。

注意点：コントラストの強いプロンプトを使うと、過度なシャープネスが出ることもあります。そういった場合は、カリカリしたフレームを避けるためにガイダンスを少し下げました（約5〜10%）。

違いがわかる部分（顔、テクスチャ、小さなオブジェクト、クローム）

テストセットはシンプルに保ちました。3月18〜24日の週に、同じシードで実行した、暗記している3つのプロンプトです。

顔：毛穴、細かい産毛、目の端が動きの中でより長く保たれます。デフォルトで「美容フィルター」感が薄くなった印象です。プロンプトを過度に制約すると不自然な笑顔になることもありましたが、全体的にワックスがかかったような頬は減りました。
テクスチャ：デニム、リネン、ブラッシュスチール。これらが最も改善されました。モデルが脈動することなく織り目パターンを尊重します。LTX‑2では、約8〜10フレームごとに「テクスチャドリフト」が発生することがありました。それがほぼなくなりました。
小さなオブジェクト：時計の針、ボタン、ネジ。周囲に溶け込む前の形状保持時間が長くなりました。完璧ではありませんが、ネジがにじみになるジャンプカットが減りました。
クロームとスペキュラー：ハイライトのにじみが少なくなりました。反射するリムや蛇口のロールオフがタイトになり、過処理に見えるフレームが減りました。

効果がなかった部分：シーン内の詳細な印刷テキスト（ラベル、看板）はまだ不安定です。鮮明で読みやすいテキストが重要な場合は、後でコンポジットすることをお勧めします。

再構築されたオーディオレイヤー：クリーンな生成、アーティファクトの減少

オーディオコンディション付きの生成がより安定しています。LTX‑2では、リズミカルなキューを多用するとかすかなフェージングやワブルが聞こえることがありました。2.3では、それがまれになっています。 120 BPMのクリックにドローンパッドを組み合わせ、その後スポークンワードのガイドトラックでテストしました。

私に変化があったこと：

ビートに合わせたモーションが、キックを「追いかけて」露出をダッキングすることなく、より一貫しています。
ボイスオーバーの歯擦音周辺に余裕が生まれ、フレームをにじませていた雑音が減りました。
エクスポートに焼き込まれたオーディオアーティファクトが少なくなりました。古い実行では、レンダリングにコンディショニングの残像が聞こえることがありましたが、私のテストではそれがなくなりました。

限界：まだフレーム精度のモーション・トゥ・ヒットアライメントではありません。完璧なビートマーカーが必要な場合は、ポスト編集でトリミングする必要があります。

オーディオtoビデオが得意なこと（と不得意なこと）

2.3のオーディオtoビデオは、エネルギーとペーシングの形成には向いています。リップシンクや正確なコレオグラフィには向いていません。

役に立った場面：

音楽のうねりにムードが合わせるアンビエントリール。モデルがトラックと一緒に「呼吸」し、露出をポンプアップしません。
柔らかいウッシュ音を伴うプロダクトクリップ。トランジションがランダムではなく、ガイドされた感じになります。

役に立たなかった場面：

モノローグへのリップシンク。口の形がまだずれます。トーキングヘッドにはこれを使わないでしょう。
正確なビートカットやダンスのステップ。雰囲気としては十分ですが、カウントには足りません。

そのため、私はこれをスキャフォールディングレイヤーとして使っています。オーディオからモーションの感触を得て、実際のNLEで編集を固定します。

ポートレート9:16と新しいフレームレートオプション（24 / 48 FPS）

ネイティブ9:16ポートレートのおかげで、面倒なクロップチェーンがなくなりました。縦方向のコンポジションが、単にトリミングしただけでなく、より意図的なフレーミングになります。LTX‑2でやっていたカフェシーケンス（ランドスケープからクロップ）を再実行したところ、2.3の縦方向パスでは手やカップ周辺のエッジディシプリンがよりクリーンになりました。

フレームレートについて：

24 fps：映画的な動きに感じますが、高速パンではストロボが出ることがあります。ナラティブな雰囲気にはまだデフォルトです。
48 fps：懸念していたソープオペラ感なしに、よりスムーズな動き。新しいアップスケーラーと組み合わせたときに、プロダクトスピンやマクロディテールに役立ちます。

一つの小さな摩擦：**48 fpsはレビューの負担が2倍になります。**フレーム間に隠れた小さなアーティファクトを見逃さないよう、チェック用に短いセグメントをエクスポートするようにしました。

空間・時間的アップスケーラー：連携の仕組み

以前は別のツールで空間的にアップスケールし、時間的なぐらつきはそのコストとして受け入れていました。LTX‑2.3のペアアップスケーラーはそのトレードオフを減らします。

私の実行方法：

快適なベース（720p程度）で生成し、モーションを確認。
空間アップスケーラーでディテールを向上。
時間的アップスケーラーでフレーム間を安定化。

気づいたこと：

時間的処理を最後にすることで、「美しい単一フレーム、不安定なシーケンス」という古い問題を回避できます。
このペアにより、パイプラインから1〜2パスを削減できました。ほとんどのクリップで外部デノイザーへの往復をやめました。
失敗ケース：ベースのモーションがすでに混乱している場合、時間的アップスケーリングがマイクロモーションをにじませることがあります。アップスケーリング前にモーション強度を少し下げることで修正しました。

魔法ではありませんが、このリリースの中で私にとって最も「システムフレンドリー」な部分です。

22Bスケール：パラメータ増加が変えること（と変えないこと）

大きなモデルはより多くのコンテキストを記憶し、より良く一般化できます。それが6〜10秒にわたるオブジェクトの安定した持続性と、複数条件のプロンプトへの若干の向上した追従性として現れました。

感じた変化：

シーケンス途中のオブジェクト入れ替わりが少なくなりました（赤いマグカップが長く赤いまま）。
スタイル指示がより信頼性高く反映されます。

修正されないこと：

複雑な空間ロジック（例：「カメラが椅子の後ろを通り過ぎ、鏡に映る…」）。注意深いプロンプティングとときにはストーリーボードパスが依然として必要です。
シーン内の完璧なテキストレンダリング。まだ難点です。

コスト：

VRAMの要求が高く、最初のトークンのレイテンシが長くなります。私のローカル環境（24 GB VRAM）はベース解像度での短い実行は対応できましたが、意欲的なものにはタイリングやオフロードが必要でした。
ウォームアップがわずかに長くなりました。大きくはありませんが、速いイテレーションをする場合には気になります。

今注目すべき人

ビルダー（ツール、ノード、カスタムワークフロー）：新しいVAEとアップスケーラーは統合する価値があります。「なぜぐらつくのか？」というよくあるサポートチケットを2種類減らします。プリセットを出荷する場合は、過剰シャープな見た目を避けるため、保守的なガイダンスのデフォルトを検討してください。
プロダクトチーム：オーディオの一貫性と9:16サポートにより、ソーシャル出力の摩擦が減ります。ユーザーがリールに傾いている場合、48 fps＋時間的アップスケーリングは穏やかなアップグレードです。リップシンクを過大に売り込まないでください。まだそこまでは達していません。
クリエイター：テクスチャドリフトに悩んでいたり、縦方向クロップワークフローが嫌いだったなら、2.3はクオリティオブライフのリリースです。完璧なテキストや確実なストーリーロジックを期待していた場合は、安心して待っていられます。

私の簡単な計算：クリーンアップマスクが減り、外部ツールへの往復が減りました。派手ではありませんが、それで十分です。

FAQ

LTX-2.3をローカルで使うためのVRAM要件は？

私の実行環境：24 GBで短いベース解像度の生成（720p前後）が小さなバッチ込みで対応できました。1080pや長いクリップの場合、タイリングと断続的なCPUオフロードが必要でした。12〜16 GBの場合、実行が遅くなり制限が厳しくなります。正確な必要量はサンプラー、コンテキスト長、両方のアップスケーラーを有効にするかどうかによって異なります。

メモリチューニングに慣れていない方は、PyTorchのCUDAメモリ管理のノートが参考になります。

LTX-2.3は既存のLTX-2 ComfyUIワークフローと後方互換性がありますか？

おおむね精神的には「はい」ですが、新しいVAE用にノードを入れ替え、ガイダンスを調整する必要がありました。古いLTX‑2 ComfyUIグラフはロードできましたが、いくつかの非推奨フィールドについて警告が出ました。10分ほどのノードクリーンアップで修正できました。Comfyで構築している場合は、モデルローダーとVAEノードに注意してください。参考資料が必要な場合は、ComfyUIのメインリポジトリはこちらです：ComfyUI on GitHub。

LTX-2.3は商用利用できますか？

私は弁護士ではありません。リリースノートのライセンスを確認したところ、通常の制限（帰属/許容される使用）付きの商用利用向け標準に見えました。プロジェクトにリスクがある場合、ブランドキャンペーン、放送など、ライセンスを一行ずつ読み、ローカルコピーを保存してください。

APIはリリース時に利用可能ですか？

テスト中にローカル実行とホスト型エンドポイントを使用しました。ホスト型APIはノートでいくつかのクォータ付きで利用可能とフラグが立てられていました。APIの機能（Webhook、リトライ、長時間実行ジョブ）に依存している場合は、パイプラインをコミットする前に公式ドキュメントで確認してください。

LTX-2.3はLoRAファインチューニングをサポートしていますか？

LTX‑2と同様のLoRAフックが公開されており、更新されたテキストエンコーダーについての互換性に関するメモがありました。実際には、古いLoRAはロードできましたが、再調整が必要でした（オーバーフィッティングのアーティファクトを避けるため強度を少し下げる）。ファインチューンに依存している場合は、再キャリブレーションの時間を確保してください。

ジッパーから始まり、クリーンアップパスが減り、クロップハックが一つ減って終わりました。劇的ではありませんが、少し軽くなった感じです。今回はそれで十分です。