Sam3 影片在现已登陆WaveSpeedAI

介紹 SAM3 Video：基於提示詞的影片分割和物體追蹤

影片分割長期以來一直是電腦視覺中最具挑戰性的問題之一。逐幀手動追蹤物體——一個稱為”rotoscoping”的過程——在 VFX 工作室、內容創作流程和影片分析工作流中消耗了無數小時。隨著 SAM3 Video 在 WaveSpeedAI 上的推出，這一切都改變了。

基於 Meta 開創性的 Segment Anything Model 3 (SAM 3)，這個統一的基礎模型將基於提示詞的影片分割帶到雲端，提供即時 API 存取、零冷啟動和透明的按秒計費。只需描述你想要分割的內容——「穿紅衣服的女性」、「人、背包、自行車」或「移除背景中的人」——SAM3 Video 就會在每一幀上處理偵測、分割和追蹤。

什麼是 SAM3 Video？

SAM3 Video 是一個影片轉影片模型，在你的素材上執行可提示概念分割 (PCS)。與需要你在每一幀上繪製遮罩的傳統分割工具不同，SAM3 Video 接受自然語言提示詞、點坐標、邊界框或遮罩輸入來識別和追蹤整個影片中的目標。

底層的 SAM 3 架構代表了與之前版本的重大飛躍。擁有 8.48 億個參數，它結合了基於 DETR 的偵測器和基於 transformer 的追蹤器，共享單一視覺編碼器。這種設計使 SAM3 Video 能夠：

偵測一個概念的所有實例（不只是每個提示詞一個物體）
分割具有像素級精度
追蹤身份在整個影片中保持一致，即使在遮擋時也是如此

根據 Meta 的研究，SAM 3 在影象和影片概念分割基準上將現有系統的準確度提高了一倍，同時可以處理 27 萬多個獨特概念——比之前的基準支持的多 50 倍以上。

主要功能

基於提示詞的目標選擇

忘掉手動繪製遮罩。使用自然語言來精確指定你想要分割的內容：

簡單名詞：person、car、dog
詳細描述：yellow school bus、red baseball cap、player in red jersey
多個目標：person, cloth, backpack

該模型理解語境並在你的影片中找到每個匹配的實例——這是先前 SAM 版本無法做到的。

單次運行中的多物體追蹤

需要追蹤多個物體類別？用逗號分隔在提示詞中列出它們。SAM3 Video 為所有幀中的每個目標生成一致的遮罩，即使物體重疊或暫時消失時也能保持唯一的身份。

強大的時間一致性

影片分割只有在結果穩定時才有用。SAM3 Video 的追蹤器通過自注意力和交叉注意力機制逐幀傳播「masklets」——時間物體分割。這消除了按幀處理方法所困擾的閃爍和漂移。

遮罩引導控制

切換 apply_mask 參數以適應不同的工作流程：

true：直接將分割遮罩應用於輸出——非常適合物體移除和背景清理
false：返回分割數據而不應用——非常適合下遊合成管道

編輯導向設計

SAM3 Video 不僅用於分析——它是為實際影片編輯而構建的。在你的提示詞中指定移除意圖（例如，「移除背景中的人，保持照明不變」）並獲得乾淨的、編輯就緒的結果。

現實世界應用案例

VFX 和後期製作

Rotoscoping 自動化：用秒級 API 呼叫替代數天的手動工作
物體移除：清理電線、支架、吊桿麥克風或不需要的背景元素
合成準備：隔離受試者用於分層合成，無需逐幀遮罩

內容創作

背景替換：分割主持人或產品以進行虛擬集合放置
社群媒體編輯：快速清理 TikTok、Instagram 或 YouTube 的影片內容
產品展示：將產品與雜亂背景隔離

影片分析

物體計數和追蹤：監控監控或運動素材中的特定項目
行為分析：透過場景追蹤個人或車輛
品質控制：識別並標記製造影片源中的缺陷

廣告和行銷

A/B 測試視覺效果：在營銷變體中交換背景或元素
本地化：分割並為不同市場替換文本或品牌元素
動態內容：從單次拍攝創建多個版本

在 WaveSpeedAI 上開始使用

通過 WaveSpeedAI 的 REST API 使用 SAM3 Video 非常簡單：

準備你的影片：上傳你的文件或提供公開可存取的 URL
製作你的提示詞：使用清晰、具體的名詞描述要分割的內容
配置參數：根據你的工作流程需求設置 apply_mask
運行推理：提交你的請求並接收處理結果

API 參數

參數	必需	描述
`video`	是	輸入影片文件或公開 URL
`prompt`	是	分割的文本指令（多個目標時用逗號分隔）
`apply_mask`	否	將遮罩應用於輸出影片（預設值：`true`）

提示詞編寫技巧

使用簡短、具體的名詞 以確保可靠的目標定位
對於多個物體，使用逗號分隔的標籤：person, bicycle, helmet
包含清理任務的約束：remove the logo, preserve the shadows

透明定價

SAM3 Video 使用簡單的按秒計費，計費時長限制在 5 到 600 秒之間：

影片時長	成本
最多 5 秒	$0.05
10 秒	$0.10
60 秒	$0.60
600 秒（最大值）	$6.00

定價以 5 秒為增量單位，每單位 $0.05 計算，使其對短剪輯和較長素材都具有可預測性和預算友善性。

為什麼選擇 WaveSpeedAI？

透過 WaveSpeedAI 運行 SAM3 Video 相比自託管部署提供重大優勢：

無冷啟動：推理立即開始——無需等待模型加載
無基礎設施管理：跳過 GPU 配置、CUDA 依賴項和擴展頭痛
可預測的成本：僅按按秒定價支付你使用的部分
簡單 REST API：用標準 HTTP 請求整合到任何工作流程

獲得最佳結果的最佳實踐

使用穩定素材：清晰的受試者分離和最小運動模糊會產生最佳遮罩
在提示詞中具體化：「紅色跑車」在精度重要時優於「汽車」
在雜亂場景中啟用 apply_mask：更嚴格的控制可防止漏洩
如果結果漂移，減少每次運行的目標：將複雜的多物體請求拆分為重點傳遞

今天開始分割

SAM3 Video 為每個創意工作者、開發人員和企業帶來企業級影片分割。無論你是在自動化 VFX 管道、構建影片分析工具，還是只是清理社群媒體內容，WaveSpeedAI 都能讓它變得簡單易用。

在 WaveSpeedAI 上嘗試 SAM3 Video →

無合約、無最低限額——只需在你需要時使用強大的 AI 推理。