Molmo2 Video UnderstandingがWaveSpeedAIに登場

Molmo2 ビデオ理解の紹介：最先端のビデオ分析がWaveSpeedAIに登場

ビデオコンテンツを真に理解する能力は、長い間AIが直面してきた最も難しい課題の一つです。画像認識は急速に成熟しましたが、ビデオはまったく異なる問題を提示します。単一フレーム内に何があるかを理解するだけでなく、時間を通じてイベントがどのように展開するかを把握する必要があります。本日、WaveSpeedAIにMolmo2 ビデオ理解をもたらすことができて、私たちはとても興奮しています。これにより、利用可能な最も有能なオープンソースビデオ分析モデルの一つにアクセスできます。

Allen Institute for AI（Ai2）によって開発されたMolmo2は、マルチモーダルAIの大きな進展を表しています。効率的な40億パラメータアーキテクチャに基づいており、はるかに大きな独有モデルと同等のビデオ理解能力を提供します。その上、わずかなデータで学習されています。WaveSpeedAIのインフラストラクチャにより、コールドスタートなし、手頃な期間ベースの価格設定を備えた単純なAPIを通じてこのパワーを活用できます。

Molmo2ビデオ理解とは何か？

Molmo2はAi2の最先端のビジョン言語モデルファミリーの一部で、2025年12月にリリースされました。前身は主に単一画像に焦点を当てていましたが、Molmo2はビデオ理解、マルチフレーム推論、およびオブジェクトトラッキングにおける革新的な能力を導入しています。

Molmo2が特に印象的な点は、そのデータ効率です。MetaのPerceptionLMは7,250万個のビデオで学習されましたが、Molmo2はわずか919万個のビデオ（データの8分の1以下）を使用して、同等またはより優れた結果を達成しています。Ai2のセットアップであるAli Farhadi氏は、「わずかなデータで、Molmo 2は主要なビデオ理解タスクで多くのフロンティアモデルを上回ります」と述べています。

私たちが提供する40億パラメータバリアントは、パフォーマンスと速度の最適なバランスを実現します。NextQA、PerceptionTest、MVBench、Video-MMEを含む7つの標準ベンチマーク全体で、より大きな80億モデルとほぼ同等のパフォーマンスを提供しながら、ビデオをより高速に処理します。これは効率が重要なプロダクション環境に最適です。

主な機能

複数の分析モード: 一般的なQ&A、要約、詳細分析、オブジェクト数え、シーン説明の5つの特殊なタスクタイプから選択でき、それぞれ特定のユースケースに最適化されています
時間的理解: 単一フレーム分析を超えて、イベントがビデオ全体を通じてどのように展開するか、オブジェクトとアクションを追跡して理解します
カスタム指示: 特定のフォーカスエリアまたは質問を追加して、分析を正確に必要とするものへ導きます
拡張ビデオサポート: 最大2分の長さのビデオを分析でき、ソーシャルメディアクリップから製品デモンストレーションまでの最も一般的なユースケースをカバーしています
構造化出力: ワークフローへの簡単な統合用に設計された、タスク特化の組織的な結果を受け取ります
競争力のあるベンチマーク: オープンウェイトの競争相手をビデオトラッキングで上回り、ビデオQAタスクではフロンティアモデルのパフォーマンスに近づきます

実世界のユースケース

ビデオライブラリ管理

大量のビデオライブラリを管理することは、メディア企業、e-commerceプラットフォーム、およびコンテンツクリエイターにとって継続的な課題です。Molmo2は、数千のビデオの説明を自動生成し、主要なテーマを抽出し、検索可能なメタデータを作成できます。カタログ化用にsummaryタスクを使用してクイックオーバービューを作成するか、scene_descriptionタスクを使用して詳細なビジュアルの内訳を作成してください。

コンテンツモデレーションワークフロー

ユーザー生成ビデオコンテンツを処理するプラットフォームの場合、Molmo2は強力なファーストパスフィルターとして機能します。analysisタスクは、人間のレビューが必要な可能性があるコンテンツを特定およびフラグ付けできます。これにより、モデレーションチームが最も重要な場所に注意を集中させるのに役立ちます。カスタム指示と組み合わせると、特定のコミュニティガイドラインに合わせて分析をカスタマイズできます。

アクセシビリティの強化

視覚障害者向けのテキスト説明を作成することは、重要であると同時に時間がかかります。scene_descriptionタスクは、ビジュアルコンテンツの詳細なナラティブを自動生成し、ビデオをより広い視聴者がアクセスできるようにします。これは教育コンテンツ、ストリーミングサービス、およびアクセシビリティ要件への準拠に非常に価値があります。

分析とメトリクス

デモビデオに何個の製品が表示されているかをカウントする必要がありますか？小売映像での顧客相互作用を追跡していますか？イベントでの群衆密度を測定していますか？countingタスクはこれらのシナリオを効率的に処理し、オクルージョンとシーン変更を通じて一貫したオブジェクトトラッキングを維持しています。これは、特定のベンチマークでMolmo2が実際にGPT-5とGemini 2.5 Proを上回る機能です。

自動要約

長尺コンテンツを実行可能な洞察に変えます。summaryタスクはビデオを簡潔な概要に蒸留し、エグゼクティブブリーフィング、会議記録、またはコンテンツキュレーション用に完璧です。「議論されたアクション項目に焦点を当てる」などのカスタム指示と組み合わせると、必要な情報を正確に抽出できます。

WaveSpeedAIで始める

WaveSpeedAIでMolmo2ビデオ理解を使用することは簡単です。ビデオを分析する方法は次の通りです：

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/molmo2/video-understanding",
    {
        "video": "https://your-video-url.com/video.mp4",
        "task": "analysis",
        "text": "Focus on the products being demonstrated"
    },
)

print(output["outputs"][0])

APIはURLまたは直接アップロード経由でビデオを受け入れます。必要に応じてタスクタイプを選択してください：

タスク	最適な用途
`general`	オープンエンドの質問と柔軟な分析
`summary`	クイックコンテンツ概要とカタログ化
`analysis`	詳細な内訳と詳細なレポート
`counting`	オブジェクトトラッキング、群衆分析、メトリクス
`scene_description`	アクセシビリティ、コンテンツタグ付け、ビジュアルナラティブ

シンプルで予測可能な価格設定

ビデオの期間に基づいて、透明で手頃な価格設定を設計しました：

期間	コスト
≤5秒	$0.005
30秒	$0.03
60秒	$0.06
120秒（最大）	$0.12

請求は5秒ごとのインクリメントで行われるため、使用する分だけ支払います。12秒のビデオの費用はわずか$0.015です。

WaveSpeedAIを選ぶ理由

Molmo2のような精巧なビジョン言語モデルを実行するには、通常、かなりのインフラストラクチャ投資が必要です。WaveSpeedAIはその複雑さを排除します：

コールドスタートなし: リクエストはモデル初期化を待つことなく即座に処理されます
プロダクションレディAPI: 任意のテックスタックと統合する単純なRESTインターフェース
予測可能なコスト: 期間ベースの価格設定は請求に驚きがないことを意味します
スケーラブルなインフラストラクチャ: コードを変更することなく、単一リクエストまたは数千を処理します

今日からビデオ分析を開始

Molmo2ビデオ理解は、オープンソースビデオAIの最先端を表しており、フロンティアモデルのパフォーマンスを達成しながら、そのトレーニングと方法論で完全に透明です。コンテンツモデレーションシステムの構築、アクセシビリティの強化、ビデオカタログの自動化、またはフッテージから洞察の抽出かどうか、このモデルは必要な機能を提供します。

インテリジェントビデオ分析をアプリケーションに追加する準備はできていますか？WaveSpeedAIでMolmo2ビデオ理解を試すして、ビデオが何を教えてくれるかを見てください。