← 部落格

LTX-2.3:Lightricks 220億參數影片模型有哪些新功能(2026)

LTX-2.3 升級至 220 億參數,搭載全新 VAE、更清晰的音訊、9:16 直式比例,以及空間/時間升頻器。以下是實際變更內容。

2 min read
LTX-2.3:Lightricks 220億參數影片模型有哪些新功能(2026)

大家好,我是 Dora。上週有件小事促使我嘗試了 LTX‑2.3:一個 4 秒的片段,夾克拉鍊一直融入布料中。我並非在追求新模型,只是希望拉鍊看起來像拉鍊,而不必花一個小時反覆調整。所以我撥出一個晚上,用了一些自 LTX‑2 以來慣用的提示詞和音頻線索跑了幾遍測試。以下的筆記並非功能巡覽,而是這次發布實際改變我日常工作的地方,以及沒有改變的地方。

LTX-2 與 LTX-2.3 快速比較

這是我希望在開始之前就能看到的快覽。我分享的是自己觀察到的,以及發布說明中所述的內容。如果某些數據看起來是近似值,那是刻意為之。

參數~10–14B(前代規模)~22B(廠商說明:更大的上下文)
VAE標準 VAE:較柔和的微細節全新高保真 VAE:更銳利的精細邊緣、更乾淨的漸層
文字編碼器穩固的提示詞遵循度:小物件有些模糊更新後對小物件的定位和風格延續更佳
音頻基本音頻條件控制:偶有相位偏移/顫抖重建音頻層:更乾淨的條件控制、更少偽影
基礎/輸出720p 基礎穩定:需透過變通方法支援直向原生 9:16 直向;相同基礎但配備更好的放大器
新功能/音頻轉影片改進、空間與時序放大器、24/48 FPS 選項

從這張表格中有兩個快速結論:VAE 升級是視覺效果的無名英雄,音頻堆疊感覺不那麼脆弱了。參數量的躍升有助於一致性,但它無法神奇地修復故事板邏輯或精確的文字排印。

全新 VAE——更銳利的精細細節對輸出實際意味著什麼

在 LTX‑2 上,我經常看到精細紋理在幀間「呼吸」,布料紋理在第 12 幀看起來正確,到第 17 幀就模糊了。使用 LTX‑2.3 的全新 VAE,邊緣和微紋理的保持效果更好。 差異並不像霓虹燈一樣明顯:它是小煩惱的消失。

實際表現:

  • 當動作加速時,髮絲和睫毛不會那麼快地結塊。
  • 鉻合金邊緣保持更緊實的高光,不會膨脹。
  • 天空和陰影中的漸層拾取的條帶更少。

這一開始並沒有為我節省時間,我仍然進行了慣常的降噪和種子掃描。但在三次嘗試之後,我停止了對珠寶和拉鍊進行手動清理遮罩。這種「節省時間」是緩慢且累積的:每個 10 秒片段可能節省 6–8 分鐘。

注意事項:如果你使用高對比度提示詞,它也可能出現過度銳化的情況。在這些情況下,我將引導值調低一個刻度(約 5–10%)以避免幀畫面過於生硬。

差異最明顯的地方(臉部、紋理、小物件、鉻合金)

我保持了緊湊的測試集:三個我熟記於心的提示詞,在 3 月 18–24 日這週用相同的種子值運行。

  • 臉部:毛孔、細小的胎毛和眼角在動作中保持得更好。預設情況下感覺不那麼像「美顏濾鏡」。當我過度限制提示詞時,偶爾還是會出現詭異的微笑,但整體上蠟質感的臉頰減少了。
  • 紋理:牛仔布、亞麻布、拉絲鋼。這些改善最多。模型在不脈動的情況下遵守編織圖案。在 LTX‑2 上,我有時會每隔 ~8–10 幀出現「紋理漂移」。這個問題基本消失了。
  • 小物件:錶針、鈕扣、螺絲。它們在融入周圍環境之前能保持形狀更長時間。雖然不完美,但螺絲變成模糊斑點的跳接情況減少了。
  • 鉻合金和高光:高光溢出減少了。我注意到反光輪圈和水龍頭上的高光衰減更緊實,這使得畫面不再顯得過度處理。

沒有顯著改善的地方:場景中的詳細印刷文字(標籤、標牌)仍然不穩定。如果清晰可讀的文字至關重要,我仍然會在後期進行合成。

重建音頻層:更乾淨的生成、更少偽影

音頻條件控制生成感覺更穩定了。在 LTX‑2 上,當我使用節奏性線索時,能聽到微弱的相位偏移或顫抖聲。在 2.3 中,這種情況更罕見了。 我測試了 120 BPM 的點擊音與持續鋪底音,以及一個口述引導音軌。

對我的改變:

  • 對齊節拍的動作更加一致,無需降低曝光來「跟隨」踢鼓。
  • 旁白中齒擦音周圍有更多呼吸空間,以前模糊幀的嘈雜聲減少了。
  • 輸出中嵌入的可聽偽影減少了。在舊版本的輸出中,我有時能在渲染結果中聽到條件控制的幽靈聲。在我的測試中,這種情況已消失。

限制:它仍然不是幀精確的動作對齊。如果你需要完美的節拍標記,你仍然需要在後期進行修剪。

音頻轉影片適合(和不適合)什麼

2.3 中的音頻轉影片適合塑造能量和節奏,但不擅長嘴型同步或精確的編舞。

對我有幫助的地方:

  • 情緒跟隨音樂起伏的氛圍影片。模型會隨著音軌「呼吸」,而不是抽動曝光。
  • 帶有輕柔呼嘯聲的產品片段,過場感覺有所引導,而非隨機。

沒有幫助的地方:

  • 嘴型同步到獨白。嘴型仍然會漂移。我不會依賴它來製作說話人頭部的影片。
  • 精確的節拍切換或舞蹈步驟。它對於氛圍來說足夠接近,但對於精確計數則不行。

所以我把它當作骨架層使用:從音頻獲得動作感,然後在真正的 NLE 中鎖定剪輯。

直向 9:16 和全新幀率選項(24 / 48 FPS)

原生 9:16 直向終於消除了我那笨拙的裁切流程。垂直構圖看起來更有意圖感,是構圖而非單純裁剪。我重新用 LTX‑2(從橫向裁切而來)運行了一個咖啡館序列,2.3 的垂直版本在手和杯子周圍給了我更乾淨的邊緣紀律。

關於幀率:

  • 24 fps:動作感覺電影感十足,但在快速平移時可能出現頻閃。仍然是我的敘事氛圍預設選項。
  • 48 fps:更流暢的動作,沒有我所擔心的肥皂劇感。對於產品旋轉和微距細節很有用,尤其是搭配新放大器使用時。

一個小摩擦:48 fps 使你的審查負擔加倍。 我開始輸出短片段進行檢查,否則我會錯過隱藏在幀間的小偽影。

空間與時序放大器:它們如何協同工作

我以前在獨立工具中進行空間放大,並接受時序抖動作為代價。LTX‑2.3 的配對放大器減少了這種取捨。

我的使用方式:

  1. 在舒適的基礎解析度(約 720p)生成,確認動作。
  2. 空間放大器提升細節。
  3. 時序放大器在幀間進行穩定化。

我注意到的:

  • 最後執行時序放大器可以避免舊有的「單幀精美、序列抖動」問題。
  • 這對組合從我的流程中節省了 1–2 個步驟。對於大多數片段,我停止了往返外部降噪器。
  • 失敗案例:如果基礎動作已經混亂,時序放大器可能會模糊微動作。我通過在放大前微調降低動作強度來解決這個問題。

這不是魔法,但對我來說是這次發布中最「系統友好」的部分。

22B 規模:參數量躍升改變了什麼(和沒有改變什麼)

更大的模型可以記住更多上下文並更好地泛化。這在這裡表現為更穩定的 6–10 秒物件持久性,以及對多子句提示詞的遵循度略有提升。

我感受到的變化:

  • 序列中途的物件置換減少了(紅色馬克杯保持紅色更長時間)。
  • 風格指令的貫穿更加可靠。

它沒有修復的:

  • 複雜的空間邏輯(例如,「相機從椅子後方穿過,然後揭示一面鏡子顯示……」)。你仍然需要仔細的提示詞編寫,有時還需要故事板步驟。
  • 場景中的完美文字渲染。仍然令人頭疼。

代價:

  • 更高的 VRAM 需求和更長的首次標記延遲。我的本地機器(24 GB VRAM)可以處理基礎解析度的短片段運行;任何有野心的內容都需要分塊或卸載。
  • 暖機時間略長。不算大,但如果你迭代很快,會注意到。

誰應該現在開始關注

  • 開發者(工具、節點、自定義工作流程):新的 VAE 和放大器值得整合。它們消除了兩種常見的「為什麼會抖動?」技術支援工單。如果你提供預設,考慮使用保守的引導預設值以避免過度銳化的效果。
  • 產品團隊:音頻一致性和 9:16 支援減少了社交媒體輸出的摩擦。如果你的用戶傾向於製作短影片,48 fps + 時序放大是一個平穩的升級。不要過度宣傳嘴型同步,它還未達到那個水準。
  • 創作者:如果你曾為紋理漂移苦惱,或者討厭裁切到垂直格式的工作流程,2.3 是一個生活品質改善版本。如果你希望獲得完美的文字渲染或嚴密的故事邏輯,你可以安心等待。

我的簡短結算:更少的清理遮罩,更少的外部跳轉。這不算炫目,但我願意接受。

常見問題

LTX-2.3 本地運行的 VRAM 需求是什麼?

我的運行情況:24 GB 可以處理短基礎解析度生成(約 720p),並有空間進行小批次處理。對於 1080p 或更長的片段,我需要分塊和偶爾的 CPU 卸載。如果你使用 12–16 GB,預計運行速度更慢且限制更緊。你的確切需求會因採樣器、上下文長度以及是否同時啟用兩個放大器而有所不同。

如果你是記憶體調優的新手,PyTorch 關於 CUDA 記憶體管理的說明是一個很好的入門資料。

LTX-2.3 與現有的 LTX-2 ComfyUI 工作流程向後相容嗎?

大致上是的,但我必須為新的 VAE 替換節點並調整引導值。我舊的 LTX‑2 ComfyUI 圖形可以載入,但提示了幾個已棄用欄位的錯誤。十分鐘的節點清理修復了它。如果你在 ComfyUI 中建構,請注意模型載入器和 VAE 節點。如果你需要參考,ComfyUI 的主要倉庫在這裡:ComfyUI on GitHub

LTX-2.3 可以商業使用嗎?

我不是律師。我查看了發布說明中的授權,看起來是帶有通常限制(署名/可接受使用)的標準商業使用授權。如果你的專案有風險——品牌活動、廣播——請逐行閱讀授權並保存本地副本。

API 在發布時可用嗎?

我在測試期間使用了本地運行和託管端點。託管 API 在說明中標記為可用,並有一些配額限制。如果你依賴 API 功能(Webhook、重試、長時間運行的任務),在提交流程之前,請在官方文件中核實這些功能。

LTX-2.3 支援 LoRA 微調嗎?

我看到 LoRA 鉤子的暴露方式與 LTX‑2 非常相似,並附有關於更新後的文字編碼器相容性說明。實際上,我的舊 LoRA 可以載入,但需要重新調整(稍微降低強度以避免過擬合偽影)。如果你依賴微調,請預算時間進行重新校準。

我因為一條拉鍊開始了這次測試。我以更少的清理步驟和少一個裁切變通方法結束了它。不算戲劇性,只是……更輕鬆了一些。對我來說,這次就夠了。

延伸閱讀: