← 部落格

ByteDance Seedance 2.0文字轉影片現已登陸WaveSpeedAI

Seedance 2.0文字轉影片能夠根據文字提示生成好萊塢級別的電影品質影片,具備原生音畫同步、導演級鏡頭控制及卓越的動態穩定性。

2 min read
Bytedance Seedance.2.0 Text To Video Seedance 2.0文字轉影片能夠根據文字提示生成好萊塢級別的電影品質影片,具備原生音畫同步、導演級鏡頭控制及卓越的...
Try it

ByteDance Seedance 2.0 文字轉影片正式登陸WaveSpeedAI:電影級AI影片的新紀元

生成式影片在過去兩年一直追趕著專業製作的水準。大多數模型仍然沒有音效、鏡頭中途失去主體,或者一遇到需要真實攝影機運動的提示詞就崩潰。今天我們很高興宣布,ByteDance Seedance 2.0 文字轉影片現已在WaveSpeedAI上線——這是一款旗艦影片模型,能夠純粹從文字生成好萊塢級別的電影片段,內建原生音效,並具備導演級的攝影機控制能力。

如果你一直在等待一個可以直接投入實際製作流程的文字轉影片模型,這就是你要試用的那個。

什麼是Seedance 2.0文字轉影片?

Seedance 2.0是ByteDance Seed影片系列的最新一代,建立在統一多模態架構之上,在單一模型中原生支援文字、圖像、音頻和影片輸入。文字轉影片模式將書面場景描述轉化為完成的電影片段。

Seedance 2.0有三大差異化特點:

  1. 音頻與影片在單次生成中同步產出,包含同步的對白、音效和環境音——無需額外的音頻處理流程。
  2. 攝影機、燈光和表演均可透過自然語言控制——指定慢速推軌、戲劇性輪廓光或特定的面部表情,模型都能照辦。
  3. 長鏡頭中的動態保持穩定,主體一致、物理效果合理,長達15秒的片段轉場流暢。

該模型透過單一端點bytedance/seedance-2.0/text-to-video提供,輸出從480p到1080p,支援六種畫面比例。

主要功能

統一多模態架構

Seedance 2.0並非一堆臨時拼接的擴充組件。同一底層模型處理文字、圖像、音頻和影片的條件輸入,這意味著隨著提示詞愈來愈複雜,你可以始終使用單一端點——加入參考圖像以保持角色一致性、參考影片以確定動作風格、或參考音頻以設定基調,無需切換模型。

原生音視頻同步

大多數文字轉影片模型只給你一個無聲的片段,將音頻留作單獨的問題。Seedance 2.0在影片生成的同時內嵌同步音頻,對白口型同步、腳步聲落在正確的幀上、氛圍與螢幕上的情緒相匹配。結果是一個片段一完成就感覺已是成品,而非等待後製的粗剪素材。

導演級控制

Seedance 2.0解讀提示詞的方式就像導演閱讀分鏡表。攝影機運動(推近、升降、急搖)、燈光設置(黃金時段、輪廓光、低調布光)、陰影方向、鏡頭質感,甚至角色的表演方式,都可以用自然語言指定,而模型會如實呈現。這就是「AI影片」與可實際使用的素材之間的差距。

製作級電影畫質

在視覺上,該模型以專業電影的質感為目標,而非一般的素材庫影片:戲劇性的燈光、精心的色彩調整、流暢自然的動態,以及強烈的主體一致性。在1080p的剪輯時間軸上表現出色,不僅僅適合作為縮圖。

卓越的動態穩定性

長鏡頭是大多數影片模型的弱點。Seedance 2.0在整個時長範圍內保持穩定的主體、一致的物理效果和流暢的轉場,讓你真正能將10秒和15秒的輸出作為完成的鏡頭使用,而非需要剪輯的原始素材。

強大的指令遵循能力

詳細的場景描述、鏡頭構圖和創意方向都能被緊密遵循。你可以疊加具體細節——服裝、道具、走位、情緒——並期待它們出現在輸出中,而非被平均化消失。

使用場景

  • 影視前期視覺化——在投入劇組和預算之前,規劃鏡頭和場景序列。生成已包含音效設計的動態分鏡。
  • 商業廣告和品牌影片——製作具有電影燈光和同步旁白或音樂墊底的優質5到15秒廣告片。
  • 音樂影片——創作具有原生音頻同步的風格化表演和敘事剪輯,然後加入最終曲目。
  • 優質社群內容——在9:16的資訊流中以電影級短片脫穎而出,看起來是精心創作的,而非AI生成的。
  • 教育和解說——用清晰的動態和內建旁白提示,視覺化抽象概念、歷史場景或科學現象。
  • 概念和提案簡報——用製作品質的動態預覽而非靜態故事板,向製作人和出版商推銷影視和遊戲概念。
  • 遊戲過場動畫和預告片——在開發早期原型化預告片的節拍和關鍵過場動畫時刻。

參數

參數必填說明
prompt電影場景的詳細描述
aspect_ratio輸出格式:16:9(預設)、9:16、4:3、3:4、1:1、21:9
duration影片長度(秒):4–15(預設:5)
resolution輸出解析度:480p、720p(預設)或1080p
reference_images用於引導風格、角色或構圖的參考圖像URL
reference_videos參考影片URL(總長度不得超過15秒)
reference_audios參考音頻URL(總長度不得超過15秒)

定價

解析度時長不含參考影片含參考影片
480p5秒$0.60$1.20
480p10秒$1.20$2.40
480p15秒$1.80$3.60
720p5秒$1.20$2.40
720p10秒$2.40$4.80
720p15秒$3.60$7.20
1080p5秒$3.00$6.00
1080p10秒$6.00$12.00
1080p15秒$9.00$18.00

定價在4到15秒的完整時長範圍內線性擴展。基礎費率為480p每5秒$0.60;720p為基礎費率的2倍,1080p為基礎費率的5倍,加入參考影片後價格翻倍。

程式碼範例

使用WaveSpeed Python SDK呼叫模型:

import wavespeed

output = wavespeed.run(
    "bytedance/seedance-2.0/text-to-video",
    {
        "prompt": "A lone astronaut walks across a windswept red desert at golden hour, dramatic rim light, slow dolly in, cinematic 35mm look, distant mountains, swirling dust",
        "aspect_ratio": "16:9",
        "duration": "10",
        "resolution": "1080p",
    },
)

print(output["outputs"][0])

當你需要更強的引導時,可以加入reference_imagesreference_videosreference_audios來鎖定風格、動態或音頻基調。

進階技巧

  • 像導演一樣書寫。 指定燈光(例如「柔和的窗光,長陰影」)、鏡頭質感、攝影機運動和主體動作。模糊的提示詞只會得到模糊的鏡頭。
  • 先確定畫面比例。 16:9適合電影寬螢幕,9:16適合優質直向影片,21:9適合變形鏡頭風格的畫面。
  • 在480p或720p下反覆迭代。 以較低成本的解析度確定構圖和動態,然後以1080p重新渲染最佳結果。
  • 從短片開始,再逐步延長。 先從4到5秒開始確定外觀和基調,提示詞調整好之後再延伸到10到15秒。
  • 善用音頻提示。 提及對白意圖、音樂情緒或環境音——原生音頻會將這些作為提示詞的一部分來回應。

常見問題

Seedance 2.0文字轉影片真的能生成音頻嗎? 是的。原生音視頻同步為內建功能,因此影片會帶著在同一次生成中產生的同步音效返回。你無需另外執行文字轉音頻或語音模型。

最長片段是多少? 時長從4秒到15秒連續可調。你可以在該範圍內指定任意整數秒數;定價與時長線性擴展。

支援哪些解析度和畫面比例? 輸出解析度為480p、720p(預設)和1080p。畫面比例為16:9(預設)、9:16、4:3、3:4、1:1和21:9。

何時應該使用參考輸入? 參考圖像有助於錨定角色、風格或構圖。參考影片引導動作或鏡頭風格(注意:這會使價格翻倍)。參考音頻塑造基調、音樂或聲音。參考影片和音頻的合計總長度不得超過15秒。

Seedance 2.0文字轉影片與圖像轉影片和快速版本相比如何? 文字轉影片僅從提示詞出發,是當你沒有源圖像幀時的正確選擇。圖像轉影片為現有圖像製作動畫。快速文字轉影片以部分品質換取更低成本和更快速的生成——非常適合迭代和高量使用場景。

相關模型

立即開始

Seedance 2.0文字轉影片在WaveSpeedAI的優化推理堆疊上運行,無冷啟動延遲、定價可預測,並提供單一REST API。無論你是在為一部劇情片做前期視覺化、剪輯品牌廣告,還是打造下一個AI原生影片產品,這個模型只需一次呼叫就能為你提供電影級輸出和原生音效。

在WaveSpeedAI上試用Seedance 2.0文字轉影片,用提示詞開始拍攝吧。