Sam3 影片在现已登陆WaveSpeedAI
免費試用 Wavespeed Ai Sam3 Video介紹 SAM3 Video:基於提示詞的影片分割和物體追蹤
影片分割長期以來一直是電腦視覺中最具挑戰性的問題之一。逐幀手動追蹤物體——一個稱為”rotoscoping”的過程——在 VFX 工作室、內容創作流程和影片分析工作流中消耗了無數小時。隨著 SAM3 Video 在 WaveSpeedAI 上的推出,這一切都改變了。
基於 Meta 開創性的 Segment Anything Model 3 (SAM 3),這個統一的基礎模型將基於提示詞的影片分割帶到雲端,提供即時 API 存取、零冷啟動和透明的按秒計費。只需描述你想要分割的內容——「穿紅衣服的女性」、「人、背包、自行車」或「移除背景中的人」——SAM3 Video 就會在每一幀上處理偵測、分割和追蹤。
什麼是 SAM3 Video?
SAM3 Video 是一個影片轉影片模型,在你的素材上執行可提示概念分割 (PCS)。與需要你在每一幀上繪製遮罩的傳統分割工具不同,SAM3 Video 接受自然語言提示詞、點坐標、邊界框或遮罩輸入來識別和追蹤整個影片中的目標。
底層的 SAM 3 架構代表了與之前版本的重大飛躍。擁有 8.48 億個參數,它結合了基於 DETR 的偵測器和基於 transformer 的追蹤器,共享單一視覺編碼器。這種設計使 SAM3 Video 能夠:
- 偵測 一個概念的所有實例(不只是每個提示詞一個物體)
- 分割 具有像素級精度
- 追蹤 身份在整個影片中保持一致,即使在遮擋時也是如此
根據 Meta 的研究,SAM 3 在影象和影片概念分割基準上將現有系統的準確度提高了一倍,同時可以處理 27 萬多個獨特概念——比之前的基準支持的多 50 倍以上。
主要功能
基於提示詞的目標選擇
忘掉手動繪製遮罩。使用自然語言來精確指定你想要分割的內容:
- 簡單名詞:
person、car、dog - 詳細描述:
yellow school bus、red baseball cap、player in red jersey - 多個目標:
person, cloth, backpack
該模型理解語境並在你的影片中找到每個匹配的實例——這是先前 SAM 版本無法做到的。
單次運行中的多物體追蹤
需要追蹤多個物體類別?用逗號分隔在提示詞中列出它們。SAM3 Video 為所有幀中的每個目標生成一致的遮罩,即使物體重疊或暫時消失時也能保持唯一的身份。
強大的時間一致性
影片分割只有在結果穩定時才有用。SAM3 Video 的追蹤器通過自注意力和交叉注意力機制逐幀傳播「masklets」——時間物體分割。這消除了按幀處理方法所困擾的閃爍和漂移。
遮罩引導控制
切換 apply_mask 參數以適應不同的工作流程:
true:直接將分割遮罩應用於輸出——非常適合物體移除和背景清理false:返回分割數據而不應用——非常適合下遊合成管道
編輯導向設計
SAM3 Video 不僅用於分析——它是為實際影片編輯而構建的。在你的提示詞中指定移除意圖(例如,「移除背景中的人,保持照明不變」)並獲得乾淨的、編輯就緒的結果。
現實世界應用案例
VFX 和後期製作
- Rotoscoping 自動化:用秒級 API 呼叫替代數天的手動工作
- 物體移除:清理電線、支架、吊桿麥克風或不需要的背景元素
- 合成準備:隔離受試者用於分層合成,無需逐幀遮罩
內容創作
- 背景替換:分割主持人或產品以進行虛擬集合放置
- 社群媒體編輯:快速清理 TikTok、Instagram 或 YouTube 的影片內容
- 產品展示:將產品與雜亂背景隔離
影片分析
- 物體計數和追蹤:監控監控或運動素材中的特定項目
- 行為分析:透過場景追蹤個人或車輛
- 品質控制:識別並標記製造影片源中的缺陷
廣告和行銷
- A/B 測試視覺效果:在營銷變體中交換背景或元素
- 本地化:分割並為不同市場替換文本或品牌元素
- 動態內容:從單次拍攝創建多個版本
在 WaveSpeedAI 上開始使用
通過 WaveSpeedAI 的 REST API 使用 SAM3 Video 非常簡單:
- 準備你的影片:上傳你的文件或提供公開可存取的 URL
- 製作你的提示詞:使用清晰、具體的名詞描述要分割的內容
- 配置參數:根據你的工作流程需求設置
apply_mask - 運行推理:提交你的請求並接收處理結果
API 參數
| 參數 | 必需 | 描述 |
|---|---|---|
video | 是 | 輸入影片文件或公開 URL |
prompt | 是 | 分割的文本指令(多個目標時用逗號分隔) |
apply_mask | 否 | 將遮罩應用於輸出影片(預設值:true) |
提示詞編寫技巧
- 使用簡短、具體的名詞 以確保可靠的目標定位
- 對於多個物體,使用逗號分隔的標籤:
person, bicycle, helmet - 包含清理任務的約束:
remove the logo, preserve the shadows
透明定價
SAM3 Video 使用簡單的按秒計費,計費時長限制在 5 到 600 秒之間:
| 影片時長 | 成本 |
|---|---|
| 最多 5 秒 | $0.05 |
| 10 秒 | $0.10 |
| 60 秒 | $0.60 |
| 600 秒(最大值) | $6.00 |
定價以 5 秒為增量單位,每單位 $0.05 計算,使其對短剪輯和較長素材都具有可預測性和預算友善性。
為什麼選擇 WaveSpeedAI?
透過 WaveSpeedAI 運行 SAM3 Video 相比自託管部署提供重大優勢:
- 無冷啟動:推理立即開始——無需等待模型加載
- 無基礎設施管理:跳過 GPU 配置、CUDA 依賴項和擴展頭痛
- 可預測的成本:僅按按秒定價支付你使用的部分
- 簡單 REST API:用標準 HTTP 請求整合到任何工作流程
獲得最佳結果的最佳實踐
- 使用穩定素材:清晰的受試者分離和最小運動模糊會產生最佳遮罩
- 在提示詞中具體化:「紅色跑車」在精度重要時優於「汽車」
- 在雜亂場景中啟用
apply_mask:更嚴格的控制可防止漏洩 - 如果結果漂移,減少每次運行的目標:將複雜的多物體請求拆分為重點傳遞
今天開始分割
SAM3 Video 為每個創意工作者、開發人員和企業帶來企業級影片分割。無論你是在自動化 VFX 管道、構建影片分析工具,還是只是清理社群媒體內容,WaveSpeedAI 都能讓它變得簡單易用。
在 WaveSpeedAI 上嘗試 SAM3 Video →
無合約、無最低限額——只需在你需要時使用強大的 AI 推理。





