Sam3 影片在现已登陆WaveSpeedAI

免費試用 Wavespeed Ai Sam3 Video

介紹 SAM3 Video:基於提示詞的影片分割和物體追蹤

影片分割長期以來一直是電腦視覺中最具挑戰性的問題之一。逐幀手動追蹤物體——一個稱為”rotoscoping”的過程——在 VFX 工作室、內容創作流程和影片分析工作流中消耗了無數小時。隨著 SAM3 Video 在 WaveSpeedAI 上的推出,這一切都改變了。

基於 Meta 開創性的 Segment Anything Model 3 (SAM 3),這個統一的基礎模型將基於提示詞的影片分割帶到雲端,提供即時 API 存取、零冷啟動和透明的按秒計費。只需描述你想要分割的內容——「穿紅衣服的女性」、「人、背包、自行車」或「移除背景中的人」——SAM3 Video 就會在每一幀上處理偵測、分割和追蹤。

什麼是 SAM3 Video?

SAM3 Video 是一個影片轉影片模型,在你的素材上執行可提示概念分割 (PCS)。與需要你在每一幀上繪製遮罩的傳統分割工具不同,SAM3 Video 接受自然語言提示詞、點坐標、邊界框或遮罩輸入來識別和追蹤整個影片中的目標。

底層的 SAM 3 架構代表了與之前版本的重大飛躍。擁有 8.48 億個參數,它結合了基於 DETR 的偵測器和基於 transformer 的追蹤器,共享單一視覺編碼器。這種設計使 SAM3 Video 能夠:

  • 偵測 一個概念的所有實例(不只是每個提示詞一個物體)
  • 分割 具有像素級精度
  • 追蹤 身份在整個影片中保持一致,即使在遮擋時也是如此

根據 Meta 的研究,SAM 3 在影象和影片概念分割基準上將現有系統的準確度提高了一倍,同時可以處理 27 萬多個獨特概念——比之前的基準支持的多 50 倍以上。

主要功能

基於提示詞的目標選擇

忘掉手動繪製遮罩。使用自然語言來精確指定你想要分割的內容:

  • 簡單名詞:personcardog
  • 詳細描述:yellow school busred baseball capplayer in red jersey
  • 多個目標:person, cloth, backpack

該模型理解語境並在你的影片中找到每個匹配的實例——這是先前 SAM 版本無法做到的。

單次運行中的多物體追蹤

需要追蹤多個物體類別?用逗號分隔在提示詞中列出它們。SAM3 Video 為所有幀中的每個目標生成一致的遮罩,即使物體重疊或暫時消失時也能保持唯一的身份。

強大的時間一致性

影片分割只有在結果穩定時才有用。SAM3 Video 的追蹤器通過自注意力和交叉注意力機制逐幀傳播「masklets」——時間物體分割。這消除了按幀處理方法所困擾的閃爍和漂移。

遮罩引導控制

切換 apply_mask 參數以適應不同的工作流程:

  • true:直接將分割遮罩應用於輸出——非常適合物體移除和背景清理
  • false:返回分割數據而不應用——非常適合下遊合成管道

編輯導向設計

SAM3 Video 不僅用於分析——它是為實際影片編輯而構建的。在你的提示詞中指定移除意圖(例如,「移除背景中的人,保持照明不變」)並獲得乾淨的、編輯就緒的結果。

現實世界應用案例

VFX 和後期製作

  • Rotoscoping 自動化:用秒級 API 呼叫替代數天的手動工作
  • 物體移除:清理電線、支架、吊桿麥克風或不需要的背景元素
  • 合成準備:隔離受試者用於分層合成,無需逐幀遮罩

內容創作

  • 背景替換:分割主持人或產品以進行虛擬集合放置
  • 社群媒體編輯:快速清理 TikTok、Instagram 或 YouTube 的影片內容
  • 產品展示:將產品與雜亂背景隔離

影片分析

  • 物體計數和追蹤:監控監控或運動素材中的特定項目
  • 行為分析:透過場景追蹤個人或車輛
  • 品質控制:識別並標記製造影片源中的缺陷

廣告和行銷

  • A/B 測試視覺效果:在營銷變體中交換背景或元素
  • 本地化:分割並為不同市場替換文本或品牌元素
  • 動態內容:從單次拍攝創建多個版本

在 WaveSpeedAI 上開始使用

通過 WaveSpeedAI 的 REST API 使用 SAM3 Video 非常簡單:

  1. 準備你的影片:上傳你的文件或提供公開可存取的 URL
  2. 製作你的提示詞:使用清晰、具體的名詞描述要分割的內容
  3. 配置參數:根據你的工作流程需求設置 apply_mask
  4. 運行推理:提交你的請求並接收處理結果

API 參數

參數必需描述
video輸入影片文件或公開 URL
prompt分割的文本指令(多個目標時用逗號分隔)
apply_mask將遮罩應用於輸出影片(預設值:true

提示詞編寫技巧

  • 使用簡短、具體的名詞 以確保可靠的目標定位
  • 對於多個物體,使用逗號分隔的標籤person, bicycle, helmet
  • 包含清理任務的約束remove the logo, preserve the shadows

透明定價

SAM3 Video 使用簡單的按秒計費,計費時長限制在 5 到 600 秒之間:

影片時長成本
最多 5 秒$0.05
10 秒$0.10
60 秒$0.60
600 秒(最大值)$6.00

定價以 5 秒為增量單位,每單位 $0.05 計算,使其對短剪輯和較長素材都具有可預測性和預算友善性。

為什麼選擇 WaveSpeedAI?

透過 WaveSpeedAI 運行 SAM3 Video 相比自託管部署提供重大優勢:

  • 無冷啟動:推理立即開始——無需等待模型加載
  • 無基礎設施管理:跳過 GPU 配置、CUDA 依賴項和擴展頭痛
  • 可預測的成本:僅按按秒定價支付你使用的部分
  • 簡單 REST API:用標準 HTTP 請求整合到任何工作流程

獲得最佳結果的最佳實踐

  1. 使用穩定素材:清晰的受試者分離和最小運動模糊會產生最佳遮罩
  2. 在提示詞中具體化:「紅色跑車」在精度重要時優於「汽車」
  3. 在雜亂場景中啟用 apply_mask:更嚴格的控制可防止漏洩
  4. 如果結果漂移,減少每次運行的目標:將複雜的多物體請求拆分為重點傳遞

今天開始分割

SAM3 Video 為每個創意工作者、開發人員和企業帶來企業級影片分割。無論你是在自動化 VFX 管道、構建影片分析工具,還是只是清理社群媒體內容,WaveSpeedAI 都能讓它變得簡單易用。

在 WaveSpeedAI 上嘗試 SAM3 Video →

無合約、無最低限額——只需在你需要時使用強大的 AI 推理。