Sam3 Video 现已登陆WaveSpeedAI

介绍 SAM3 Video：基于提示的视频分割和对象跟踪

视频分割一直是计算机视觉中最具挑战性的问题之一。逐帧手动追踪对象——这个过程称为人工描线——在 VFX 工作室、内容创建流程和视频分析工作流中消耗了无数小时。这一切都因为 WaveSpeedAI 上 SAM3 Video 的推出而改变。

基于 Meta 的突破性 Segment Anything Model 3 (SAM 3)，这个统一的基础模型将基于提示的视频分割带到云端，实现即时 API 访问、零冷启动和透明的按秒计费。只需描述您想要分割的内容——“穿红衣服的女人”、“人、背包、自行车”或”删除背景中的人”——SAM3 Video 就会在每一帧上处理检测、分割和跟踪。

什么是 SAM3 Video?

SAM3 Video 是一个 视频转视频模型，对您的素材执行可提示概念分割 (PCS)。与需要您在每一帧上绘制蒙版的传统分割工具不同，SAM3 Video 接受自然语言提示、点坐标、边界框或蒙版输入，以识别并跟踪整个视频中的目标。

底层 SAM 3 架构代表了从以前版本的重大飞跃。凭借 8.48 亿个参数，它结合了基于 DETR 的检测器和基于 Transformer 的跟踪器，共享一个单一的视觉编码器。这种设计使 SAM3 Video 能够：

检测一个概念的所有实例（不仅仅是每个提示的一个对象）
分割具有像素级精度
跟踪身份在帧之间保持一致，即使通过遮挡

根据 Meta 的研究，SAM 3 在图像和视频概念分割基准上的准确度提高了一倍，同时可以处理超过 27 万个独特概念——超过以前基准支持的 50 倍。

主要功能

基于提示的目标选择

忘记手动绘制蒙版。使用自然语言精确指定要分割的内容：

简单名词：person、car、dog
详细描述：yellow school bus、red baseball cap、player in red jersey
多个目标：person, cloth, backpack

该模型理解上下文并查找视频中所有匹配的实例——这是以前的 SAM 版本做不到的。

单次运行中的多对象跟踪

需要跟踪多个对象类别？在您的提示中用逗号列出它们。SAM3 Video 为所有帧中的每个目标生成一致的蒙版，即使在对象重叠或暂时消失时也能保持唯一的身份。

强大的时间一致性

视频分割只有在结果稳定时才有用。SAM3 Video 的跟踪器通过自注意力和交叉注意力机制逐帧传播”蒙版片段”——时间对象段。这消除了逐帧处理方法所带来的闪烁和漂移。

蒙版引导控制

切换 apply_mask 参数以适应不同的工作流：

true：将分割蒙版直接应用于输出——理想用于对象删除和背景清理
false：返回分割数据而不应用——非常适合下游合成管道

面向编辑的设计

SAM3 Video 不仅用于分析——它是为实际视频编辑而构建的。在您的提示中指定删除意图（例如，“删除背景中的人，保持照明不变”），并获得干净的、编辑就绪的结果。

现实应用场景

VFX 和后期制作

人工描线自动化：用几秒钟的 API 调用替代数天的手动工作
对象删除：清除电线、支架、麦克风吊臂或不想要的背景元素
合成准备：隔离主体进行分层合成，无需逐帧遮罩

内容创建

背景替换：分割演讲者或产品以进行虚拟布景放置
社交媒体编辑：为 TikTok、Instagram 或 YouTube 快速清理视频内容
产品展示：从杂乱的背景中隔离产品

视频分析

对象计数和跟踪：在监控或运动素材中监控特定项目
行为分析：通过场景跟踪个人或车辆
质量控制：识别和标记制造视频源中的缺陷

广告和营销

A/B 测试视觉效果：在广告系列变体中交换背景或元素
本地化：为不同市场分割和替换文本或品牌元素
动态内容：从单次拍摄创建多个版本

在 WaveSpeedAI 上开始使用

通过 WaveSpeedAI 的 REST API 使用 SAM3 Video 非常简单：

准备视频：上传文件或提供公开可访问的 URL
编写提示：使用清晰、具体的名词描述要分割的内容
配置参数：根据工作流需求设置 apply_mask
运行推理：提交请求并接收处理的结果

API 参数

参数	必需	描述
`video`	是	输入视频文件或公开 URL
`prompt`	是	分割的文本指令（多个目标用逗号分隔）
`apply_mask`	否	将蒙版应用于输出视频（默认：`true`）

提示编写提示

使用简短、具体的名词 以确保可靠定位
对于多个对象，使用逗号分隔的标签：person, bicycle, helmet
包含约束条件 用于清理任务：remove the logo, preserve the shadows

透明定价

SAM3 Video 使用简单的按秒定价，计费时长限制在 5 到 600 秒之间：

视频时长	成本
5 秒以内	$0.05
10 秒	$0.10
60 秒	$0.60
600 秒（最大）	$6.00

定价按 5 秒递增计算，每个单位 $0.05，对于短片和较长素材都能提供可预测且预算友好的定价。

为什么选择 WaveSpeedAI？

通过 WaveSpeedAI 运行 SAM3 Video 相比自主部署具有显著优势：

无冷启动：推理立即开始——无需等待模型加载
无基础设施管理：无需 GPU 配置、CUDA 依赖和扩展问题
可预测的成本：使用清晰的按秒定价，只为您使用的付费
简单 REST API：使用标准 HTTP 请求集成到任何工作流

获得最佳结果的最佳实践

使用稳定的素材：清晰的主体分离和最小的运动模糊能产生最佳蒙版
在提示中具体：当精度重要时，“红色运动车”的表现优于”汽车”
在杂乱场景中启用 apply_mask：更紧密的控制防止色泽溢出
如果结果漂移，减少每次运行的目标：将复杂的多对象请求分成重点通路

立即开始分割

SAM3 Video 为每个创作者、开发者和企业带来企业级视频分割。无论您是自动化 VFX 流程、构建视频分析工具，还是简单地为社交媒体清理内容，WaveSpeedAI 都能使其易于实现。

在 WaveSpeedAI 上尝试 SAM3 Video →

无合同、无最低要求——只需在您需要时获得强大的 AI 推理。