← 部落格

SkyReels V4 與 SkyReels V2 對比:模型究竟進步了多少?

SkyReels 從無限長度影片(V2)進化到音視頻聯合生成(V4)。以下是具體的變化、改進之處,以及各版本目前最適合的應用場景。

2 min read
SkyReels V4 與 SkyReels V2 對比:模型究竟進步了多少?

嗨,我是 Dora。我這週其實沒有計劃要比較 SkyReels。我只是想為一個落地頁原型製作一個循環背景片段,但我慣用的工具感覺比應有的更繁瑣。那種微小的重量感——點擊舊節點、等待預覽、猜測音訊時間點——讓我停下來思考。於是我把 V2 和 V4 並排放在一起,用相同的提示詞跑了一遍。不是為了分出勝負,只是想看看哪邊的工作流程更輕鬆。

如果你來這裡是想要一個簡單的結論,你不會找到的。SkyReels V2V4 解決的是不同面向的問題。這是我的實戰筆記版本的「skyreels v4 vs v2」,寫於 2026 年 2 月至 3 月間實際跑了幾次之後。

SkyReels 系列快速時間線

V1(以人為中心,2025 年 2 月)→ V2(無限長度)→ V3(音訊實驗)→ V4

我第一次接觸 SkyReels 是在 2025 年初 V1 的時候。它給人感覺像是一個謹慎的專案,有人工介入的循環,速度較慢但穩定。V2 到來後悄悄改變了重心:透過擴散強迫(diffusion forcing)實現「無限」影片。這裡的無限不是詩意上的無限,而是實際上可以持續輸入幀的無邊界序列。

V3 在音訊方面做了更認真的嘗試。 我記得語音節拍的對齊效果還不錯,但感覺仍像是兩列火車共用一條軌道:音訊在一邊,影片在另一邊,隔著鴻溝互相揮手。

V4 讓這一切更緊密了。它有不同的優先級和不同的預設值。與其說是線性升級,不如說是重新定義「一個輸出單元」的意義。在 V4 中,一個片段成為一個完整的成品,音訊與影片一起生成,具備更高的原生品質,但長度有上限。 那個上限是刻意的取捨。

V2 真正擅長的事

用於無限影片的擴散強迫

我第一次使用 V2 的擴散強迫來製作長篇內容時,跑過頭了。我讓它在午餐時間跑著,回來時發現四分鐘連貫流暢的動態畫面,就像一個忘了停止的音樂視覺化器。那既是刺激所在,也是風險所在:它可以一直跑下去。在實際應用中,我學會了把它當作一台攝影機,讓它滾動,直到我有足夠的自然動態素材可以剪輯。

對於循環背景、紋理和抽象動態,V2 承擔了主要工作。不需要應付重啟或時間戳帶來的心理負擔令人如釋重負。我設定一個方向,然後根據需要保留或修剪。上個月我需要為一個活動頁面製作 45 至 60 秒的背景,V2 一次就搞定了。無需拼接,無需場景邊界。

開源,相容 ComfyUI

我也欣賞 V2 融入我現有工作流程的方式。ComfyUI 節點、社群片段、幾個小型自定義調整——我可以在重新佈置家具的同時保留我的盆栽。如果你的設備是東拼西湊的(我的就是),有時還需要與帶著自己工作流程的夥伴協作(這也是我),V2 相容性很好。 這比聽起來更重要。節省的時間不只是幾分鐘,而是更少的心理分支。少了那種「那個轉換節點跑到哪去了?」的煩惱。

我注意到 V2 在硬體方面也很寬容。不是說跑起來很便宜,但我可以降低配置而不讓一切崩潰。如果有人傳給我一個預設,通常稍作微調就能「直接跑起來」。這是一種平淡無奇的優勢。我喜歡平淡無奇的優勢。

V4 從根本上改變了什麼

音訊成為一等公民

V4 中,音訊不是事後才加上去的,它是內建的。 我在 2 月 27 日為一個播客預告片生成了一段短宣傳片,3 月 2 日又用稍微不同的配音床再跑了一次,以此來測試這一點。V4 將視覺重點與大鼓和小鼓的節拍同步,比我組合過的任何 V2 流程都更乾淨自然。雖然不完美,但自然得讓我不需要去動關鍵幀。

簡單來說:V2 可以附加音訊,V4 是與音訊一起創作。 如果你的工作依賴節拍匹配的視覺效果或由人聲引導的節奏,V4 能減少大量人工調整。

統一架構 vs 分離的流程

這帶來的感受是:腦子裡需要切換的東西少了。在 V2 的世界裡,我會分別思考「音訊世界」和「影片世界」,然後花時間把兩者的決策黏合在一起。在 V4 中,我給出一個完整的簡報,讓模型在兩個流之間傳遞上下文。當我調整旁白的重點(一句說得更輕,一句說得更有力),V4 會重新調整剪輯和動態來配合。在 V2 中,這意味著需要局部重建。

不那麼顯眼的好處:更少脆弱的交接點。 我在各步驟之間傳遞的檔案數量減少了。我的專案資料夾看起來更整潔,更少暫存輸出,更少命名儀式。這些是小事,但這些小事說明了一個工具是否真正尊重人們實際的工作方式。

解析度和品質的躍升

V4 在邊緣細節和動態一致性上的視覺提升最為明顯。 細小的細節、標誌、布料紋理、窗前的髮絲,能夠保持更長時間而不模糊。在我的測試中,1080p 的原生清晰度感覺很可靠;4K 放大的效果也比我的舊 V2 堆疊保持得更好。我仍然在細對角線上看到輕微的閃爍,但那種會悄悄溜進長 V2 序列的「油畫感」幀少多了。

我記下了兩點注意事項:

  • V4 的首幀品質很強,但在複雜場景中可能出現早期微抖動。通常到第三或第四秒就會穩定下來。
  • V4 的色彩保持得更好,但片段中途進行激烈的色調轉換可能會讓模型感到困惑。我發現輸出後再進行調色,比在提示詞中調整效果更乾淨。

總體而言,如果你的交付成果是一段短小精緻且音訊內建的作品,V4 的預設值會以更少的彎路引導你抵達終點。

V2 仍然佔優勢的地方

影片長度(V4 最長 15 秒,V2 = 無限)

這是最明顯的一點。V4 目前上限是 15 秒。對於社群媒體預告、片頭或產品循環來說,這沒問題。但對於環境氛圍畫布、長篇說明影片或展覽牆面,就不夠了。V2 的「讓它跑下去」模式對任何超過半分鐘的內容仍然更合理。我不必預先規劃場景邊界,可以在中途發現精彩時刻,然後向外修剪。

我嘗試透過串聯輸出來在 V4 中模擬長度。技術上可行,但我能感受到接縫。每次銜接處的流感都有所變化,就像把兩首相同調性但不同鼓手演奏的歌拼接在一起。

目前更廣泛的硬體/整合支援

V2 在業界有更長的使用歷史。更多範例、更多社群節點、更多人分享解決你也會遇到的邊緣案例的文章。如果你在混合設備上工作(我有時會在工作室電腦和差旅筆電之間切換),V2 對差異的容忍度很有幫助。我上週載入了一位隊友的 V2 工作流程,只需修補一個地方就能跑起來。等效的 V4 工作流程感覺對環境和版本的要求更嚴格。

如果你的工具鏈依賴 ComfyUI 加上各種輔助工具,V2 問的問題更少。這可能是今天就能交貨,還是花一個下午在依賴鏈上戳來戳去之間的差異。

決策指南:選 V2 還是 V4?

以下是我在來回跑了一週、完成幾個實際交付之後,整理出的思考框架。

選擇 V4 如果:

  • 你的輸出在 15 秒以內,並且需要開箱即用的完成感。
  • 音訊很重要——節拍同步、人聲引導的節奏,或音樂驅動的動態。
  • 你重視更少的活動部件,即使這意味著長篇實驗的空間更小。

選擇 V2 如果:

  • 你需要超過 15 秒且沒有明顯接縫的序列。
  • 你的工作流程已大量使用 ComfyUI,並且會和協作者交換預設。
  • 你願意承擔更多手動精修,以換取開放式的長度和更廣泛的相容性。

讓我感到意外的事

  • V4 減少了我的專案雜亂程度。 更少的暫存檔案,更少的半成品素材。這是一種不同類型的速度——更少的上下文切換。
  • V2 仍然感覺更像黏土。我可以推它、拉伸它,而模型不會把我推回「短片段」的思維定式。

為什麼這很重要

我們大多數人不需要另一個工具。我們需要更少的步驟和更穩定的結果。V4 引導你走向完成。V2 引導你走向開放。兩者沒有普遍意義上的優劣之分,關鍵在於你一天工作的輪廓是什麼。

如果你在緊迫的截止日期下製作短格式內容,V4 是更平靜的路徑。如果你在構建環境氛圍畫布、現場視覺效果,或任何需要超過 15 秒呼吸空間的內容,V2 讓你的雙手更自由。

這對我有效,你的情況可能因人而異。我大概會把兩者都裝著。一個用於完成帶有聲音的作品,另一個用於當我只是想讓攝影機一直滾動的時候。 我心裡還有個小問題:V4 會不會在不失去其沉穩氣質的前提下,取消長度限制?我希望如此。但我不急著等答案。