Sam3 Video 现已登陆WaveSpeedAI

免费试用 Wavespeed Ai Sam3 Video

介绍 SAM3 Video:基于提示的视频分割和对象跟踪

视频分割一直是计算机视觉中最具挑战性的问题之一。逐帧手动追踪对象——这个过程称为人工描线——在 VFX 工作室、内容创建流程和视频分析工作流中消耗了无数小时。这一切都因为 WaveSpeedAI 上 SAM3 Video 的推出而改变。

基于 Meta 的突破性 Segment Anything Model 3 (SAM 3),这个统一的基础模型将基于提示的视频分割带到云端,实现即时 API 访问、零冷启动和透明的按秒计费。只需描述您想要分割的内容——“穿红衣服的女人”、“人、背包、自行车”或”删除背景中的人”——SAM3 Video 就会在每一帧上处理检测、分割和跟踪。

什么是 SAM3 Video?

SAM3 Video 是一个 视频转视频模型,对您的素材执行可提示概念分割 (PCS)。与需要您在每一帧上绘制蒙版的传统分割工具不同,SAM3 Video 接受自然语言提示、点坐标、边界框或蒙版输入,以识别并跟踪整个视频中的目标。

底层 SAM 3 架构代表了从以前版本的重大飞跃。凭借 8.48 亿个参数,它结合了基于 DETR 的检测器和基于 Transformer 的跟踪器,共享一个单一的视觉编码器。这种设计使 SAM3 Video 能够:

  • 检测 一个概念的所有实例(不仅仅是每个提示的一个对象)
  • 分割 具有像素级精度
  • 跟踪 身份在帧之间保持一致,即使通过遮挡

根据 Meta 的研究,SAM 3 在图像和视频概念分割基准上的准确度提高了一倍,同时可以处理超过 27 万个独特概念——超过以前基准支持的 50 倍。

主要功能

基于提示的目标选择

忘记手动绘制蒙版。使用自然语言精确指定要分割的内容:

  • 简单名词:personcardog
  • 详细描述:yellow school busred baseball capplayer in red jersey
  • 多个目标:person, cloth, backpack

该模型理解上下文并查找视频中所有匹配的实例——这是以前的 SAM 版本做不到的。

单次运行中的多对象跟踪

需要跟踪多个对象类别?在您的提示中用逗号列出它们。SAM3 Video 为所有帧中的每个目标生成一致的蒙版,即使在对象重叠或暂时消失时也能保持唯一的身份。

强大的时间一致性

视频分割只有在结果稳定时才有用。SAM3 Video 的跟踪器通过自注意力和交叉注意力机制逐帧传播”蒙版片段”——时间对象段。这消除了逐帧处理方法所带来的闪烁和漂移。

蒙版引导控制

切换 apply_mask 参数以适应不同的工作流:

  • true:将分割蒙版直接应用于输出——理想用于对象删除和背景清理
  • false:返回分割数据而不应用——非常适合下游合成管道

面向编辑的设计

SAM3 Video 不仅用于分析——它是为实际视频编辑而构建的。在您的提示中指定删除意图(例如,“删除背景中的人,保持照明不变”),并获得干净的、编辑就绪的结果。

现实应用场景

VFX 和后期制作

  • 人工描线自动化:用几秒钟的 API 调用替代数天的手动工作
  • 对象删除:清除电线、支架、麦克风吊臂或不想要的背景元素
  • 合成准备:隔离主体进行分层合成,无需逐帧遮罩

内容创建

  • 背景替换:分割演讲者或产品以进行虚拟布景放置
  • 社交媒体编辑:为 TikTok、Instagram 或 YouTube 快速清理视频内容
  • 产品展示:从杂乱的背景中隔离产品

视频分析

  • 对象计数和跟踪:在监控或运动素材中监控特定项目
  • 行为分析:通过场景跟踪个人或车辆
  • 质量控制:识别和标记制造视频源中的缺陷

广告和营销

  • A/B 测试视觉效果:在广告系列变体中交换背景或元素
  • 本地化:为不同市场分割和替换文本或品牌元素
  • 动态内容:从单次拍摄创建多个版本

在 WaveSpeedAI 上开始使用

通过 WaveSpeedAI 的 REST API 使用 SAM3 Video 非常简单:

  1. 准备视频:上传文件或提供公开可访问的 URL
  2. 编写提示:使用清晰、具体的名词描述要分割的内容
  3. 配置参数:根据工作流需求设置 apply_mask
  4. 运行推理:提交请求并接收处理的结果

API 参数

参数必需描述
video输入视频文件或公开 URL
prompt分割的文本指令(多个目标用逗号分隔)
apply_mask将蒙版应用于输出视频(默认:true

提示编写提示

  • 使用简短、具体的名词 以确保可靠定位
  • 对于多个对象,使用逗号分隔的标签person, bicycle, helmet
  • 包含约束条件 用于清理任务:remove the logo, preserve the shadows

透明定价

SAM3 Video 使用简单的按秒定价,计费时长限制在 5 到 600 秒之间:

视频时长成本
5 秒以内$0.05
10 秒$0.10
60 秒$0.60
600 秒(最大)$6.00

定价按 5 秒递增计算,每个单位 $0.05,对于短片和较长素材都能提供可预测且预算友好的定价。

为什么选择 WaveSpeedAI?

通过 WaveSpeedAI 运行 SAM3 Video 相比自主部署具有显著优势:

  • 无冷启动:推理立即开始——无需等待模型加载
  • 无基础设施管理:无需 GPU 配置、CUDA 依赖和扩展问题
  • 可预测的成本:使用清晰的按秒定价,只为您使用的付费
  • 简单 REST API:使用标准 HTTP 请求集成到任何工作流

获得最佳结果的最佳实践

  1. 使用稳定的素材:清晰的主体分离和最小的运动模糊能产生最佳蒙版
  2. 在提示中具体:当精度重要时,“红色运动车”的表现优于”汽车”
  3. 在杂乱场景中启用 apply_mask:更紧密的控制防止色泽溢出
  4. 如果结果漂移,减少每次运行的目标:将复杂的多对象请求分成重点通路

立即开始分割

SAM3 Video 为每个创作者、开发者和企业带来企业级视频分割。无论您是自动化 VFX 流程、构建视频分析工具,还是简单地为社交媒体清理内容,WaveSpeedAI 都能使其易于实现。

在 WaveSpeedAI 上尝试 SAM3 Video →

无合同、无最低要求——只需在您需要时获得强大的 AI 推理。