推出 SAM3 Video RLE：具有 RLE 編碼輸出的專業級視頻分割

視頻分割的格局已經根本改變。過去需要熟練藝術家團隊花費無數小時進行逐幀旋轉技術處理的工作，現在可以通過 AI 驅動的工具在幾秒內完成。今天，我們很高興地宣布 SAM3 Video RLE 現已登陸 WaveSpeedAI，將 Meta 開創性的 Segment Anything Model 3 技術帶給您的視頻製作和計算機視覺工作流程，並提供為程序化處理優化的 RLE 編碼輸出。

什麼是 SAM3 Video RLE？

SAM3 Video RLE 是一個統一的基礎模型，用於基於提示的視頻分割，它將 Meta 的 Segment Anything Model 3 的革命性功能與行程長度編碼 (RLE) 輸出格式相結合。SAM 3 作為 Meta Segment Anything Collection 在 2025 年末推出的一部分，在分割技術中引入了一個範式轉變：能夠使用自然語言描述而不是手動點擊或邊界框來檢測、分割和追蹤物體。

與之前的分割模型不同，之前需要您點擊每個想要追蹤的物體，SAM3 啟用了可提示概念分割 (PCS)——只需使用”穿著紅色襯衫的人”或”場景中的所有車輛”等文本來描述您要尋找的內容，該模型就會在整個視頻中找到並追蹤每個匹配實例。

SAM3 Video RLE 中的 “RLE” 指的是輸出格式：行程長度編碼，這是一種無損壓縮方法，將分割蒙版存儲為緊湊數據而不是完整圖像文件。這使其非常適合自動化管道、計算機視覺應用程序以及任何需要以編程方式訪問逐幀蒙版數據的工作流程。

主要功能

多模式提示

文本提示：自然描述物體——“穿著藍色夾克的人”、“所有汽車”、“在公園裡玩耍的狗”
點提示：點擊坐標以識別特定目標
框提示：繪製邊界框以進行精確物體選擇
組合提示：混合文本、點和框以獲得最大準確性

多物體追蹤

使用逗號分隔的提示同時追蹤多個物體。需要在同一視頻中分割”人、汽車、狗”？只需列出它們，SAM3 會分別處理每個，同時在幀之間保持一致的身份。

高效的 RLE 輸出

RLE 編碼根據物體邊界數量而不是圖像尺寸進行擴展。對於物體通常形成連續區域的視頻分割，這與原始蒙版相比導致檔案大小大幅縮小——非常適合處理長視頻或與下游系統集成。

內置提示增強器

不確定如何描述您要尋找的內容？集成的提示增強器會自動改進您的文本描述以獲得更好的分割結果。

可選蒙版可視化

切換 apply_mask 參數以直接在您的視頻上預覽分割疊加層，輕鬆驗證結果，然後再提交進行全面處理。

實際應用案例

視頻註釋和訓練數據生成

為機器學習創建高質量的訓練數據集是出了名的耗時工作。SAM3 Video RLE 通過自動生成逐幀分割蒙版來改變此工作流程。RLE 格式與 CVAT 等流行的 ML 框架和註釋工具直接兼容，CVAT 已經為 SAM 3 集成了流線化標籤工作流程。過去需要廣泛手動註釋的工作現在可以在幾秒內進行預標記，人類審查者只需將重點放在質量控制和邊界情況上。

VFX 和旋轉技術

VFX 行業已被 SAM 3 的功能徹底改革。傳統旋轉技術——手動逐幀追蹤主題的痛苦過程——已被根本顛覆。演示已表明，曾經需要”數十人團隊”的任務現在通過 AI 輔助分割可在”幾秒內”完成。VFX 藝術家可以使用 SAM3 Video RLE 生成用於合成的蒙版、對孤立主題應用效果或通過複雜運動序列去除背景。

自動化視頻處理管道

對於構建視頻處理系統的開發人員，RLE 編碼的蒙版可無縫集成到自動化工作流程中。JSON 輸出格式可直接與 pycocotools 和類似庫配合使用：

from pycocotools import mask as mask_utils

rle_data = {"counts": "146301 3 147834 11 ...", "size": [height, width]}
binary_mask = mask_utils.decode(rle_data)  # Returns numpy array

體育分析和監控

在保持唯一身份的同時追蹤幀上的球員、車輛或任何感興趣的物體。SAM 3 追蹤的時間一致性處理遮擋、擁擠場景和外觀變化，這些都會挑戰傳統追蹤系統。

機器人和 AR/VR 應用程序

機器人感知的實時場景理解、增強現實疊加層和虛擬環境交互都受益於快速、準確的分割和程序化輸出。

在 WaveSpeedAI 上開始使用

在 WaveSpeedAI 上使用 SAM3 Video RLE 非常簡單。只需上傳您的視頻並描述您想要分割的內容：

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/sam3-video-rle",
    {
        "video": "https://your-video-url.com/video.mp4",
        "prompt": "person, car"
    }
)

# Output contains RLE-encoded masks for each frame
print(output["outputs"])

為了獲得更精確的控制，添加點或框提示來指導分割：

output = wavespeed.run(
    "wavespeed-ai/sam3-video-rle",
    {
        "video": "https://your-video-url.com/video.mp4",
        "prompt": "the main subject",
        "point_prompts": [[512, 384]],
        "apply_mask": True
    }
)

合理的定價

WaveSpeedAI 為 SAM3 Video RLE 提供透明的基於使用情況的定價：

時長	價格
每 5 秒	$0.05
1 分鐘	$0.60
5 分鐘	$3.00
10 分鐘	$6.00

視頻按 5 秒增量計費，每個作業的最長時長為 10 分鐘。對於較長的內容，只需分成多個段並分別處理。

為什麼選擇 WaveSpeedAI？

運行先進的視頻分割模型需要大量的計算資源。WaveSpeedAI 通過以下方式消除了這些障礙：

無冷啟動：您的作業立即開始處理，無需等待模型初始化
優化推理：我們調整了 SAM3 以實現最大吞吐量，而不犧牲質量
簡單的 REST API：通過幾行代碼將視頻分割集成到任何應用程序中
經濟實惠的定價：只為您使用的內容付費，無需前期承諾

立即開始分割

SAM3 Video RLE 代表了視頻分割技術的根本飛躍。無論您是為計算機視覺模型生成訓練數據、自動化 VFX 工作流程還是構建下一代視頻理解應用程序，該模型都可以以前所未有的易用性提供專業級結果。

準備好改變您的視頻工作流程了嗎？在 WaveSpeedAI 上試用 SAM3 Video RLE，體驗視頻分割的未來。