WaveSpeedAI LTX 2.3 圖像轉影片現已登陸WaveSpeedAI
LTX-2.3 是一款基於 DiT 架構的音視頻基礎模型,旨在單一模型中生成同步的影片與音訊,並具備更優質的音訊與視覺品質。
在 WaveSpeedAI 上使用 LTX-2.3 圖片轉影片,讓您的靜態影像動起來
靜態圖片訴說故事,而有聲的動態影像讓觀眾感同身受。LTX-2.3 圖片轉影片功能現已在 WaveSpeedAI 上線,您可以將任何靜態圖片轉換為高保真影片——完整搭配同步音訊——只需一次生成即可完成。無需後期製作,無需另備音訊工具,只需上傳、輸入提示詞,然後播放。
LTX-2.3 由 Lightricks 基於擴散式 Transformer(DiT)架構打造,代表著統一音訊-影片生成技術的重大突破。大多數圖片轉影片模型只能生成無聲片段,需要另行設計音效,而 LTX-2.3 則能同時生成動態畫面與音訊,輸出一個連貫完整的作品。最終呈現的動畫內容,從第一幀開始便渾然一體。
LTX-2.3 是什麼?
LTX-2.3 是 LTX-2 模型系列的最新版本——這是一個擁有 190 億參數的基礎模型,大致分為 140 億參數用於影片處理,50 億參數用於音訊處理。它是首批能夠在單一統一架構內生成同步音訊與影片的開源模型之一,透過交叉注意力機制確保聲音與動態畫面完美對齊。
「2.3」版本相較前代帶來了顯著改進:以更高品質資料訓練的重建 VAE(變分自編碼器)、升級版 HiFi-GAN 聲碼器提供更清晰的音訊輸出、更強的圖片轉影片一致性,以及在整個生成流程中更佳的提示詞遵循能力。
核心功能
-
同步音訊-影片生成:音訊並非事後附加的產物。環境音、音樂、對話提示與音效均在單次生成中與視覺動態同步生成,無需獨立的音訊工作流程。
-
全新 VAE,細節更銳利:LTX-2.3 重建的潛在空間能在整個畫面中保留精細紋理、面部特徵、髮絲、文字與邊緣細節。輸出效果比前代版本明顯更清晰。
-
更乾淨的音訊輸出:改良版 HiFi-GAN 聲碼器減少了噪音瑕疵與靜音間隙。對話、環境音與音樂的清晰度均有顯著提升。
-
忠實還原原始圖片:模型在為參考圖片添加自然、連貫的動態時,能維持主體、構圖、取景與光線效果——不會出現身份漂移或畫質劣化。
-
彈性的解析度與時長:支援以 480p、720p 或 1080p 生成影片,時長從 5 秒到 20 秒不等,讓您靈活兼顧品質、成本與創作需求。
-
直式與橫式皆支援:原生 9:16 直式模式,輕鬆產出適合 Instagram Reels、TikTok 及 YouTube Shorts 等社群平台的內容。
-
24/48 FPS 選項:依據輸出需求選擇幀率,從標準播放到更流暢的高幀率輸出皆可支援。
實際應用場景
產品行銷
將產品攝影轉化為動態展示影片。上傳球鞋、護膚品瓶或家具的主視覺圖片,LTX-2.3 便能為其添加細膩的動態效果——旋轉視角、光線變化、環境氛圍——同時生成匹配的環境音訊。過去需要攝影師與音效師才能完成的工作,現在幾秒鐘內便能起草完成。
社群媒體內容
短影音的需求從未停歇。LTX-2.3 讓創作者能將最精彩的靜態圖片轉換為吸引眼球的動態貼文,並內建音效。一張風景照片搖身變為帶有風聲與鳥鳴的電影級畫面,一張美食照片則成為滋滋作響、熱氣蒸騰的短片,隨時可以發布。
人像與角色動畫
為大頭照、人像與角色插畫注入自然的動態。模型擅長在保留面部特徵的同時加入栩栩如生的動作——輕微的頭部轉動、眨眼、表情變化——非常適合用於數位虛擬形象、創意專案與個人化內容。
故事板與視覺化前期製作
對於電影工作者與創意總監而言,LTX-2.3 可將靜態故事板畫格和概念藝術轉化為帶有同步音訊的動態序列。在正式開拍前,讓相關人員對節奏、氛圍與音效設計有具體的感受,從而加速前期製作進程。
電子商務與廣告
靜態產品列表容易流失關注。附有環境音效的動態產品影片能提升互動率與轉換率。LTX-2.3 讓大規模生成影片素材變得可行——先以 480p 快速迭代,再以 1080p 渲染最終成品。
在 WaveSpeedAI 上快速開始
在 WaveSpeedAI 上運行 LTX-2.3 圖片轉影片十分簡單。無冷啟動延遲,推理速度快,幾秒鐘而非幾分鐘便能獲得結果。
import wavespeed
output = wavespeed.run(
"wavespeed-ai/ltx-2.3/image-to-video",
{
"image": "https://your-image-url.com/photo.jpg",
"prompt": "The camera slowly pushes in as the subject turns their head, soft ambient music playing"
},
)
print(output["outputs"][0]) # 輸出影片 URL
您也可以指定解析度與時長:
output = wavespeed.run(
"wavespeed-ai/ltx-2.3/image-to-video",
{
"image": "https://your-image-url.com/product.jpg",
"prompt": "Gentle rotation revealing product details, soft studio lighting, subtle ambient hum",
"resolution": "1080p",
"duration": 10
},
)
專業建議:先從 480p 和較短時長開始,調整您的提示詞與動態方向。一旦獲得滿意的效果,再放大至 1080p 進行最終輸出。比較不同提示詞變體時,使用固定的隨機種子,以便精確判斷每次調整的效果差異。
定價
WaveSpeedAI 上的 LTX-2.3 起價低至 $0.10 即可生成 480p 的 5 秒影片,最高為 $0.80 可生成 1080p 的 20 秒影片。無需訂閱——只為您生成的內容付費。
| 解析度 | 5 秒 | 10 秒 | 15 秒 | 20 秒 |
|---|---|---|---|---|
| 480p | $0.10 | $0.20 | $0.30 | $0.40 |
| 720p | $0.15 | $0.30 | $0.45 | $0.60 |
| 1080p | $0.20 | $0.40 | $0.60 | $0.80 |
為何選擇 WaveSpeedAI?
在同步音訊-影片生成迅速成為主流的當下——Veo 3.1、Kling 3.0 與 Sora 2 等模型皆不斷突破極限——LTX-2.3 作為具備生產級品質的強大開源選項脫穎而出。而在 WaveSpeedAI 上運行它,更能獲得匹配的基礎設施支援:無冷啟動的快速推理、簡單的 API 整合,以及讓實驗成本可控的定價方案。
無論您是獨立創作者製作社群動態內容,還是團隊大規模生成影片素材,LTX-2.3 統一音訊-影片生成能力與 WaveSpeedAI 優化基礎設施的結合,都意味著更少的等待時間,更多的創作時間。
立即開始創作
靜態圖片與完整有聲影片之間的距離從未如此之近。立即在 WaveSpeedAI 上試用 LTX-2.3 圖片轉影片,親身體驗您的圖片在動態中的聲音。





