Sam3 Video 现已登陆WaveSpeedAI
免费试用 Wavespeed Ai Sam3 Video介绍 SAM3 Video:基于提示的视频分割和对象跟踪
视频分割一直是计算机视觉中最具挑战性的问题之一。逐帧手动追踪对象——这个过程称为人工描线——在 VFX 工作室、内容创建流程和视频分析工作流中消耗了无数小时。这一切都因为 WaveSpeedAI 上 SAM3 Video 的推出而改变。
基于 Meta 的突破性 Segment Anything Model 3 (SAM 3),这个统一的基础模型将基于提示的视频分割带到云端,实现即时 API 访问、零冷启动和透明的按秒计费。只需描述您想要分割的内容——“穿红衣服的女人”、“人、背包、自行车”或”删除背景中的人”——SAM3 Video 就会在每一帧上处理检测、分割和跟踪。
什么是 SAM3 Video?
SAM3 Video 是一个 视频转视频模型,对您的素材执行可提示概念分割 (PCS)。与需要您在每一帧上绘制蒙版的传统分割工具不同,SAM3 Video 接受自然语言提示、点坐标、边界框或蒙版输入,以识别并跟踪整个视频中的目标。
底层 SAM 3 架构代表了从以前版本的重大飞跃。凭借 8.48 亿个参数,它结合了基于 DETR 的检测器和基于 Transformer 的跟踪器,共享一个单一的视觉编码器。这种设计使 SAM3 Video 能够:
- 检测 一个概念的所有实例(不仅仅是每个提示的一个对象)
- 分割 具有像素级精度
- 跟踪 身份在帧之间保持一致,即使通过遮挡
根据 Meta 的研究,SAM 3 在图像和视频概念分割基准上的准确度提高了一倍,同时可以处理超过 27 万个独特概念——超过以前基准支持的 50 倍。
主要功能
基于提示的目标选择
忘记手动绘制蒙版。使用自然语言精确指定要分割的内容:
- 简单名词:
person、car、dog - 详细描述:
yellow school bus、red baseball cap、player in red jersey - 多个目标:
person, cloth, backpack
该模型理解上下文并查找视频中所有匹配的实例——这是以前的 SAM 版本做不到的。
单次运行中的多对象跟踪
需要跟踪多个对象类别?在您的提示中用逗号列出它们。SAM3 Video 为所有帧中的每个目标生成一致的蒙版,即使在对象重叠或暂时消失时也能保持唯一的身份。
强大的时间一致性
视频分割只有在结果稳定时才有用。SAM3 Video 的跟踪器通过自注意力和交叉注意力机制逐帧传播”蒙版片段”——时间对象段。这消除了逐帧处理方法所带来的闪烁和漂移。
蒙版引导控制
切换 apply_mask 参数以适应不同的工作流:
true:将分割蒙版直接应用于输出——理想用于对象删除和背景清理false:返回分割数据而不应用——非常适合下游合成管道
面向编辑的设计
SAM3 Video 不仅用于分析——它是为实际视频编辑而构建的。在您的提示中指定删除意图(例如,“删除背景中的人,保持照明不变”),并获得干净的、编辑就绪的结果。
现实应用场景
VFX 和后期制作
- 人工描线自动化:用几秒钟的 API 调用替代数天的手动工作
- 对象删除:清除电线、支架、麦克风吊臂或不想要的背景元素
- 合成准备:隔离主体进行分层合成,无需逐帧遮罩
内容创建
- 背景替换:分割演讲者或产品以进行虚拟布景放置
- 社交媒体编辑:为 TikTok、Instagram 或 YouTube 快速清理视频内容
- 产品展示:从杂乱的背景中隔离产品
视频分析
- 对象计数和跟踪:在监控或运动素材中监控特定项目
- 行为分析:通过场景跟踪个人或车辆
- 质量控制:识别和标记制造视频源中的缺陷
广告和营销
- A/B 测试视觉效果:在广告系列变体中交换背景或元素
- 本地化:为不同市场分割和替换文本或品牌元素
- 动态内容:从单次拍摄创建多个版本
在 WaveSpeedAI 上开始使用
通过 WaveSpeedAI 的 REST API 使用 SAM3 Video 非常简单:
- 准备视频:上传文件或提供公开可访问的 URL
- 编写提示:使用清晰、具体的名词描述要分割的内容
- 配置参数:根据工作流需求设置
apply_mask - 运行推理:提交请求并接收处理的结果
API 参数
| 参数 | 必需 | 描述 |
|---|---|---|
video | 是 | 输入视频文件或公开 URL |
prompt | 是 | 分割的文本指令(多个目标用逗号分隔) |
apply_mask | 否 | 将蒙版应用于输出视频(默认:true) |
提示编写提示
- 使用简短、具体的名词 以确保可靠定位
- 对于多个对象,使用逗号分隔的标签:
person, bicycle, helmet - 包含约束条件 用于清理任务:
remove the logo, preserve the shadows
透明定价
SAM3 Video 使用简单的按秒定价,计费时长限制在 5 到 600 秒之间:
| 视频时长 | 成本 |
|---|---|
| 5 秒以内 | $0.05 |
| 10 秒 | $0.10 |
| 60 秒 | $0.60 |
| 600 秒(最大) | $6.00 |
定价按 5 秒递增计算,每个单位 $0.05,对于短片和较长素材都能提供可预测且预算友好的定价。
为什么选择 WaveSpeedAI?
通过 WaveSpeedAI 运行 SAM3 Video 相比自主部署具有显著优势:
- 无冷启动:推理立即开始——无需等待模型加载
- 无基础设施管理:无需 GPU 配置、CUDA 依赖和扩展问题
- 可预测的成本:使用清晰的按秒定价,只为您使用的付费
- 简单 REST API:使用标准 HTTP 请求集成到任何工作流
获得最佳结果的最佳实践
- 使用稳定的素材:清晰的主体分离和最小的运动模糊能产生最佳蒙版
- 在提示中具体:当精度重要时,“红色运动车”的表现优于”汽车”
- 在杂乱场景中启用
apply_mask:更紧密的控制防止色泽溢出 - 如果结果漂移,减少每次运行的目标:将复杂的多对象请求分成重点通路
立即开始分割
SAM3 Video 为每个创作者、开发者和企业带来企业级视频分割。无论您是自动化 VFX 流程、构建视频分析工具,还是简单地为社交媒体清理内容,WaveSpeedAI 都能使其易于实现。
在 WaveSpeedAI 上尝试 SAM3 Video →
无合同、无最低要求——只需在您需要时获得强大的 AI 推理。





