WaveSpeedAI Molmo2 Video Understanding现已登陆WaveSpeedAI
推出 Molmo2 视频理解:最先进的视频分析现已登陆 WaveSpeedAI
真正理解视频内容的能力一直是 AI 最具挑战性的前沿之一。虽然图像识别已经迅速成熟,但视频提出了一个根本不同的问题——要求模型不仅要理解一帧中出现的内容,还要理解事件如何随时间推进。今天,我们很高兴为您带来 Molmo2 视频理解到 WaveSpeedAI,让您能够访问当今最具能力的开源视频分析模型之一。
由 Allen 人工智能研究所(Ai2)开发的 Molmo2 代表了多模态 AI 的突破。建立在高效的 4B 参数架构之上,它提供的视频理解能力可与许多更大的专有模型相匹敌,甚至在某些情况下超越它们,同时只需使用数据的一小部分进行训练。通过 WaveSpeedAI 的基础设施,您现在可以通过简单的 API 利用这种能力,没有冷启动,价格实惠且基于时长。
什么是 Molmo2 视频理解?
Molmo2 是 Ai2 最先进的视觉-语言模型系列的一部分,于 2025 年 12 月发布。与主要专注于单个图像的前身不同,Molmo2 在视频理解、多帧推理和物体跟踪方面引入了突破性功能。
Molmo2 特别令人印象深刻的是其数据效率。虽然 Meta 的 PerceptionLM 是在 7250 万个视频上训练的,但 Molmo2 仅使用 919 万个视频——不到数据量的八分之一——就取得了相当或更好的结果。正如 Ai2 首席执行官 Ali Farhadi 所说,“只用数据的一小部分,Molmo 2 在关键视频理解任务上超越了许多前沿模型。”
我们提供的 4B 变体在性能和速度之间取得了最优平衡。在包括 NextQA、PerceptionTest、MVBench 和 Video-MME 的七个标准基准上,它提供的性能与较大的 8B 模型几乎相同,同时处理视频的速度更快——非常适合效率至关重要的生产工作负载。
主要特性
- 多种分析模式:从五种专门的任务类型中选择——通用问答、摘要、详细分析、物体计数和场景描述——每种都针对特定用例进行了优化
- 时间理解:超越单帧分析,理解事件如何随时间推进,在整个视频中跟踪物体和动作
- 自定义指令:添加特定的关注领域或问题以引导分析准确指向您需要的内容
- 扩展视频支持:分析长达 2 分钟的视频,涵盖从社交媒体剪辑到产品演示的大多数常见用例
- 结构化输出:接收组织有序的、针对任务的结果,设计用于轻松集成到您的工作流中
- 竞争力基准:在视频跟踪上超越开源竞争对手,在视频 QA 任务上接近前沿模型性能
真实用例
视频库管理
管理大型视频库是媒体公司、电商平台和内容创作者面临的持续挑战。Molmo2 可以自动生成描述、提取关键主题,并为数千个视频创建可搜索的元数据。使用摘要任务创建快速概览以进行编目,或使用 scene_description 任务进行详细的视觉分解。
内容审核工作流
对于处理用户生成视频内容的平台,Molmo2 充当强大的初级过滤器。分析任务可以识别并标记可能需要人工审查的内容,帮助审核团队将注意力集中在重要的地方。结合自定义指令,您可以根据特定的社区准则定制分析。
无障碍访问增强
为视障用户创建文本描述既重要又耗时。scene_description 任务自动生成视觉内容的详细叙述,使视频对更广泛的受众更易获取。这对于教育内容、流媒体服务和无障碍合规要求至关重要。
分析和指标
需要计算演示视频中有多少产品?跟踪零售视频中的客户互动?测量活动中的人群密度?计数任务可以有效处理这些场景,即使在遮挡和场景变化时也能保持一致的物体跟踪——这是 Molmo2 在某些基准上实际上超越 GPT-5 和 Gemini 2.5 Pro 的能力。
自动摘要
将长篇内容转化为可操作的见解。摘要任务将视频提炼为简明概述,非常适合行政简报、会议记录或内容管理。结合”专注于讨论的行动项目”这样的自定义指令,您可以准确提取所需的信息。
开始使用 WaveSpeedAI
在 WaveSpeedAI 上使用 Molmo2 视频理解非常简单。以下是如何分析视频的方法:
import wavespeed
output = wavespeed.run(
"wavespeed-ai/molmo2/video-understanding",
{
"video": "https://your-video-url.com/video.mp4",
"task": "analysis",
"text": "Focus on the products being demonstrated"
},
)
print(output["outputs"][0])
API 接受通过 URL 或直接上传的视频。根据您的需要选择任务类型:
| 任务 | 最适合 |
|---|---|
general | 开放式问题和灵活分析 |
summary | 快速内容概览和编目 |
analysis | 详细分解和深度报告 |
counting | 物体跟踪、人群分析、指标 |
scene_description | 无障碍访问、内容标记、视觉叙述 |
简单、透明的价格
我们的价格设计透明实惠,基于视频时长:
| 时长 | 价格 |
|---|---|
| ≤5 秒 | $0.005 |
| 30 秒 | $0.03 |
| 60 秒 | $0.06 |
| 120 秒(最大) | $0.12 |
计费按 5 秒增量进行,所以您只需为您使用的部分付费。12 秒的视频仅需支付 $0.015。
为什么选择 WaveSpeedAI?
运行像 Molmo2 这样的复杂视觉-语言模型通常需要大量基础设施投资。WaveSpeedAI 消除了这种复杂性:
- 无冷启动:您的请求立即处理,无需等待模型初始化
- 生产就绪的 API:简单的 REST 接口可集成到任何技术栈
- 可预测的成本:基于时长的定价意味着账单上没有意外惊喜
- 可扩展基础设施:处理单个请求或数千个请求而无需更改代码
立即开始分析视频
Molmo2 视频理解代表了开源视频 AI 的前沿——在实现前沿模型性能的同时,完全保持了训练和方法的透明度。无论您是在构建内容审核系统、增强无障碍访问、自动化视频编目还是从视频中提取见解,此模型都提供所需的能力。
准备好将智能视频分析添加到您的应用程序中了吗?在 WaveSpeedAI 上尝试 Molmo2 视频理解,看看您的视频能告诉您什么。





