← 部落格

SkyReels V4 評測:真實能力、基準測試與誠實的限制

在您決定是否值得投入時間之前,誠實地審視 SkyReels V4 的真實性能、基準測試結果,以及論文中未告訴您的事情。

1 min read
SkyReels V4 評測:真實能力、基準測試與誠實的限制

一切從一個小麻煩開始:我需要一段短片,音樂與畫面動作不互相干擾。不是電影預告片,只是一段12到15秒、感覺連貫的乾淨片段。我慣用的工具通常能讓我接近目標,但最後我還是得在Premiere裡微調時間點、遮蓋一些小失誤。於是我打開了 SkyReels V4

這篇 SkyReels V4 評測不是勝利宣言,而是幾次專注測試後的現場筆記,加上對已發布資料的審視,以及它在實際工作中的落點。我在意的是無聊的部分:同步、控制、可重複性,以及第三次嘗試後才浮現的取捨,而非第一次演示的效果。

我們知道什麼(以及如何得知)

論文結論與現實存取狀況

我讀了 V4 技術報告。在紙面上,SkyReels V4 是一個多模態生成與編輯系統:文字轉影片、圖片轉影片、影片轉影片,加上以音訊作為時間引導的條件式生成。如果你對這個模型還不熟悉,這篇關於 SkyReels V4 是什麼 的概覽更詳細地介紹了它的架構、定位和核心功能。論文強調時間一致性、音訊驅動的動作提示,以及無需完整重新生成即可套用修改的編輯介面。

以上是論文的內容。實際上,存取管道仍然受限。我透過同事的工作區取得了短期API存取權限(小批次配額、有速率限制)。我在兩天內執行了九個提示詞,並對其中三段片段進行了少量編輯。我也將結果與公開示範影片(那永遠是最佳情境)進行比較,並參考了另外兩位正在測試分鏡工作流程的用戶的筆記。所以,這不是大規模的測試套件,更像是一次謹慎的廚房桌實驗,附帶一般常見的注意事項。

基準測試表現

SkyReels-VABench 結果(2000+提示詞,5個內容類別)

SkyReels 發布了一個自家基準測試 SkyReels-VABench,由2,000+個提示詞構成,涵蓋五個維度:指令遵循、動作真實性、場景連貫性、音影同步,以及可編輯性。根據他們的報告,V4 在音影同步和場景連貫性方面領先,並在指令遵循方面較V3.2有所提升。差距看起來有意義,但這仍是內部基準測試,因此我將其視為方向性參考,而非定論。

在我的測試中,同步的說法與我所見相符:鼓擊在應有的位置落點,即使我沒有過度設計提示詞,剪切點也接近節拍標記。指令遵循的表現比我預期的更好,尤其在空間約束方面(「攝影機向左移動,同時主體轉向窗戶」),但在場景內的文字清晰度方面較弱(店面招牌沒問題,但筆電螢幕上的小型UI文字就不行了)。

Artificial Analysis 排行榜排名第2(2026年2月)

截至2026年2月底,Artificial Analysis 的社群排行榜將 SkyReels V4 列為文字轉影片整體排名第2,在時間一致性和音訊同步方面獲得特別高的評分。這是一個綜合分數,來自成對比較和部分自動化指標。瀏覽起來很有幫助,但我對任何匯總數字都持保留態度——排行榜將大量細節壓縮成一個數字。

它對我的作用很簡單:促使我優先測試音訊引導的提示詞,因為那是V4 似乎最出色的地方。這個決定結果是正確的。

排名實際上衡量什麼

排行榜主要捕捉在理想條件下短片段的表面品質與偏好,它們無法衡量:

  • 達到目標需要重試幾次,
  • 系統在一週使用中的穩定程度,
  • 或在不從頭開始的情況下進行小幅編輯有多困難。

在這個落差中,我的小規模測試比排名更有意義。V4 感覺像是一個為時序和連貫性而構建的系統。它(目前)不是我需要45秒敘事性內容且要求畫面內文字清晰可讀時會選擇的工具。

V4 的顯著優勢

音影同步品質

這是 SkyReels V4 展現其價值之處。 我輸入了一段120 BPM的音軌,並要求在下拍時,對一個陶瓷馬克杯進行緩慢的推進鏡頭,同時蒸汽捲起。第一次嘗試,動作重音落在節拍格的約40毫秒以內,視覺上感覺非常緊湊。說話人臉的唇形同步比我習慣的更好:輔音對齊,沒有那種遲滯、嘴型拖後的感覺。在12到13秒後,我仍看到輕微漂移,但用編輯器做個細微的時間拉伸就能輕易修正。更重要的是:我花在微調時間點上的心力減少了。

有一個小細節讓我很欣賞:當我要求只在弱拍時有鏡頭抖動,模型大部分時候都遵守了。不是完美,但意圖得到了體現。

處理複雜多模態提示詞

我嘗試了分鏡圖 + 文字提示詞 + 音訊引導的組合,用於製作一段快速解說節拍:兩個鏡頭、桌面場景、自然光、一隻手在小鼓打擊時放下筆記本。V4 很好地處理了這些關聯。分鏡圖中的桌面得以延續。手部動作在一到兩幀內與小鼓同步。我不需要列舉每一個約束條件。這種提示詞詞量的減少是……令人愉快的。

它對空間指令的遵循也比我預期的更好:我要求主體從畫面右側入場,同時攝影機向左推進。視差感覺有根基,不飄浮。當我用更抽象的提示詞挑戰它(「城市燈光隨hi-hat節奏閃爍,但前景保持靜止」),V4 維持了前景的穩定,並將散景作為調製的圖層。這正是我想要的那種控制力。

無需重新訓練即可編輯

編輯流程不是魔法,但很實用。我可以:

  • 鎖定前6秒,只重新生成最後一個節拍,
  • 遮住馬克杯並更換釉色,而不重新繪製背景,
  • 用滑桿調整動作強度,而不是重寫提示詞。

這些是小事,但它們讓你避開典型的重複生成漩渦。我確實碰到一個小障礙:當我要求在鏡頭中途進行新的焦點拉換時,重新生成影響的畫面範圍比我預期的更大,並使某些紋理變得柔和。解決方法是將鏡頭分割並分段編輯。不夠優雅,但速度夠快。

誠實的局限性

15秒最大時長 vs Sora 2 / Veo

在我測試時,SkyReels V4 的生成上限是15秒。這對鉤子片段、片頭,或動態標誌來說已足夠。對於敘事性或解說性內容則有所限制。Sora 2 預覽版 和 Veo 讓你能推進更長的時長,在我試用的版本中最長可達60秒,因此如果你需要單一、連續的鏡頭,V4 就要求你進行拼接。

拼接是可行的,但你要付出連貫性的代價:剪切點的顏色偏移、背景漂移、主體細節的微小變化。如果你習慣在後期處理這些問題,那無所謂。如果你想要開箱即用的乾淨45秒片段,這個上限會讓你感覺撞牆。

存取與部署成熟度

存取需要邀請。 網頁介面感覺穩定;API 感覺尚處早期。我在尖峰時段遇到排隊等待,還有一次超時需要重新提交任務。文件涵蓋基本知識,但進階控制參數落後於論文。SDK 存在,但型別提示不完整。浮水印預設開啟(這是好事),但切換選項對我來說無法使用。

從團隊角度來看:我目前看不到明確說明的企業級防護措施(審核工作流程、內容政策鉤子、日誌記錄深度)。如果你要向終端用戶發布功能,這很重要。如果你是個人創作者,在網頁介面內工作並匯出,應該沒問題。

自行部署的硬體需求

我沒有找到可用於生產的V4自行部署選項。如果本地部署在你的計畫中,請提前規劃。即使日後權重獲得本地使用授權,這個規模的模型通常需要多GPU配置(想想高顯存的A100/H100等級)才能以合理速度運行。對大多數團隊來說,這意味著目前需要使用雲端推理或託管服務。

誰應該使用 SkyReels V4?

如果你重視時序、連貫性和小而可靠的編輯,SkyReels V4 值得你關注。它沒有用壯觀的效果讓我眼花繚亂,而是降低了我需要從頭開始的次數。這是它低調的優勢。

可能會喜歡它的人:

  • 製作帶有音樂結構的6到15秒片段的創作者,
  • 需要在不親力親為每次渲染的情況下,在不同變體間保持一致品牌動態的行銷人員,
  • 為短互動或主視覺循環製作原型的產品團隊,這類場景中音訊同步至關重要。

可能不適合的人:

  • 需要單次完成30到60秒敘事鏡頭的人,
  • 任何依賴場景內清晰可讀UI文字的人,
  • 今天就需要成熟部署控制功能的團隊(稽核追蹤、細粒度角色權限、嚴格的SLA)。

為何這對我重要: 能尊重編輯並保持節奏的工具,能減少決策疲勞。三次迭代後,我得到了一段感覺「足夠完成」的片段,不需要額外較勁。當然,每個人的情況可能不同。如果你一直在手動將音訊與影片對齊,並且厭倦了那些小失誤,這值得一試。

最後一個小觀察:我得到的最佳片段並不是最炫目的那個。而是那個馬克杯、蒸汽,以及下拍乾淨落點的片段。沒什麼好炫耀的,一切各就各位。