介绍SAM3 Video RLE：采用RLE编码输出的专业级视频分割

视频分割的格局已经根本改变。曾经需要熟练艺术家团队花费无数小时进行逐帧描线的工作，现在可以通过AI驱动的工具在几秒内完成。今天，我们很高兴地宣布SAM3 Video RLE现已登陆WaveSpeedAI，将Meta的突破性Segment Anything Model 3技术引入您的视频制作和计算机视觉工作流程，并提供优化的RLE编码输出，专为程序化处理而设计。

什么是SAM3 Video RLE？

SAM3 Video RLE是一个统一的基础模型，用于基于提示的视频分割，它结合了Meta的Segment Anything Model 3的革命性功能与运行长度编码(RLE)输出格式。作为Meta在2025年底发布的Segment Anything Collection的一部分，SAM 3引入了分割技术的范式转变：能够使用自然语言描述而不是手动点击或边界框来检测、分割和跟踪对象。

与之前需要您点击要跟踪的每个对象的分割模型不同，SAM3支持提示概念分割(PCS)——只需用文本描述您要查找的内容，如”穿着红色衬衫的人”或”场景中的所有车辆”，模型就会在您整个视频中找到并跟踪每个匹配的实例。

SAM3 Video RLE中的”RLE”指的是输出格式：运行长度编码，这是一种无损压缩方法，将分割掩码存储为紧凑数据而不是完整图像文件。这使其非常适合自动化管道、计算机视觉应用以及任何需要以程序化方式访问逐帧掩码数据的工作流程。

主要功能

多模态提示

文本提示：自然地描述对象——“穿着蓝色夹克的人”、“所有汽车”、“在公园里玩耍的狗”
点提示：点击坐标以识别特定目标
框提示：绘制边界框以精确选择对象
组合提示：混合使用文本、点和框以获得最高精度

多对象跟踪

使用逗号分隔的提示同时跟踪多个对象。需要在同一视频中分割”人、汽车、狗”？只需列出它们，SAM3就会独立处理每一个，同时在帧之间保持一致的身份。

高效的RLE输出

RLE编码随对象边界数量而扩展，而不是图像尺寸。对于视频分割，其中对象通常形成连续区域，这相比原始掩码导致文件大小大幅减小——非常适合处理长视频或与下游系统集成。

内置提示增强器

不确定如何描述您要查找的内容？集成的提示增强器会自动改进您的文本描述以获得更好的分割结果。

可选的掩码可视化

切换apply_mask参数，在视频上直接预览分割叠加层，便于验证结果后再进行完整处理。

实际应用案例

视频标注和训练数据生成

创建高质量的机器学习训练数据集通常耗时很长。SAM3 Video RLE通过自动生成逐帧分割掩码来改变这一工作流程。RLE格式与CVAT等流行的ML框架和标注工具直接兼容，这些工具已经集成了SAM 3以实现简化的标注工作流程。曾经需要大量手动标注的工作现在可以在几秒内预先标注，人类审阅者只需关注质量控制和边界情况。

VFX和描线

VFX行业已被SAM 3的功能彻底革新。传统描线——手动逐帧追踪主体的痛苦过程——已从根本上被中断。演示表明，曾经需要”数十人的团队”花费的任务现在用AI辅助的分割只需”几秒”。VFX艺术家可以使用SAM3 Video RLE生成合成用掩码、对隔离的主体应用效果，或通过复杂的运动序列移除背景。

自动化视频处理管道

对于构建视频处理系统的开发者，RLE编码掩码可无缝集成到自动化工作流程中。JSON输出格式直接与pycocotools等库配合使用：

from pycocotools import mask as mask_utils

rle_data = {"counts": "146301 3 147834 11 ...", "size": [height, width]}
binary_mask = mask_utils.decode(rle_data)  # 返回numpy数组

体育分析和监控

在保持独特身份的同时，在帧之间跟踪运动员、车辆或任何感兴趣的对象。SAM 3跟踪的时间一致性处理遮挡、拥挤场景和外观变化，这些都是传统跟踪系统的挑战。

机器人和AR/VR应用

机器人感知的实时场景理解、增强现实叠加层和虚拟环境交互都受益于快速、准确的分割和程序化输出。

WaveSpeedAI入门

在WaveSpeedAI上使用SAM3 Video RLE非常简单。只需上传您的视频并描述您要分割的内容：

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/sam3-video-rle",
    {
        "video": "https://your-video-url.com/video.mp4",
        "prompt": "person, car"
    }
)

# 输出包含每帧的RLE编码掩码
print(output["outputs"])

为了获得更精确的控制，添加点或框提示来指导分割：

output = wavespeed.run(
    "wavespeed-ai/sam3-video-rle",
    {
        "video": "https://your-video-url.com/video.mp4",
        "prompt": "the main subject",
        "point_prompts": [[512, 384]],
        "apply_mask": True
    }
)

合理的定价

WaveSpeedAI为SAM3 Video RLE提供透明的使用量定价：

时长	成本
每5秒	$0.05
1分钟	$0.60
5分钟	$3.00
10分钟	$6.00

视频按5秒增量计费，每个任务的最大时长为10分钟。对于较长内容，只需分割成片段并分别处理。

为什么选择WaveSpeedAI？

运行高级视频分割模型需要大量计算资源。WaveSpeedAI通过以下方式消除这些障碍：

无冷启动：您的任务立即开始处理，无需等待模型初始化
优化推理：我们已调整SAM3以实现最大吞吐量，而不牺牲质量
简单的REST API：用几行代码将视频分割集成到任何应用程序中
实惠的定价：仅为您使用的内容付费，无需预先承诺

立即开始分割

SAM3 Video RLE代表了视频分割技术的根本飞跃。无论您是在为计算机视觉模型生成训练数据、自动化VFX工作流程，还是构建下一代视频理解应用程序，该模型都提供专业级的结果和前所未有的易用性。