WaveSpeedAI Sam3ビデオがWaveSpeedAIに登場

SAM3 Video: プロンプトベースのビデオセグメンテーションとオブジェクトトラッキング

ビデオセグメンテーションは、コンピュータビジョンにおいて長年にわたって最も困難な問題の一つでした。フレームごとにオブジェクトを手動で追跡するロトスコーピングというプロセスは、VFXスタジオ、コンテンツ制作パイプライン、ビデオ分析ワークフローで無数の時間を消費してきました。しかし今、WaveSpeedAIにSAM3 Video が登場し、それが変わります。

Metaの革新的なSegment Anything Model 3（SAM 3）に基づいて構築されたこの統一基盤モデルは、クラウドへのプロンプトベースのビデオセグメンテーションをもたらし、インスタント APIアクセス、コールドスタートなし、透明な1秒単位の価格設定を実現します。「赤いドレスの女性」「人物、バックパック、自転車」、または「背景の人物を削除」など、セグメント化したいものを説明するだけで、SAM3 Videoはすべてのフレーム全体で検出、セグメンテーション、トラッキングを処理します。

SAM3 Videoとは?

SAM3 Videoは、フッテージに対してプロンプト可能なコンセプトセグメンテーション（PCS）を実行するビデオ-ビデオモデル です。すべてのフレームにマスクを描く必要がある従来のセグメンテーションツールとは異なり、SAM3 Videoは自然言語プロンプト、ポイント座標、バウンディングボックス、またはマスク入力を受け入れて、ビデオ全体を通してターゲットを識別し追跡します。

基盤となるSAM 3アーキテクチャは、以前のバージョンから大きな飛躍を遂げています。8億4,800万個のパラメータを備えており、DETR ベースの検出器とトランスフォーマーベースのトラッカーを単一のビジョンエンコーダで共有します。このデザインにより、SAM3 Videoは以下が可能になります:

1つのオブジェクトだけでなく、コンセプトのすべてのインスタンスを検出
ピクセル完全な精度でセグメント化
オクルージョンを通じてさえ、フレーム全体で一貫してID をトラッキング

Metaの研究によると、SAM 3は画像およびビデオコンセプトセグメンテーションベンチマークの両方で既存システムの精度を2倍にしながら、前のベンチマークがサポートしていた以上の50倍以上の270,000以上のユニークなコンセプトを処理します。

主な機能

プロンプトベースのターゲット選択

手動でマスクを描く必要はありません。自然言語を使用して、セグメント化したいものを正確に指定します:

シンプルな名詞: person、car、dog
詳細な説明: yellow school bus、red baseball cap、player in red jersey
複数のターゲット: person, cloth, backpack

モデルはコンテキストを理解し、ビデオ内の一致するすべてのインスタンスを検出します。これは以前のSAMバージョンではできませんでした。

単一実行での複数オブジェクトトラッキング

複数のオブジェクトカテゴリをトラッキングする必要がありますか? プロンプトにカンマで区切られたリストを入力します。SAM3 Videoはすべてのフレーム全体で各ターゲットの一貫したマスクを生成し、オブジェクトが重なったり一時的に消えたりしても、ユニークなIDを維持します。

強力な時間的一貫性

ビデオセグメンテーションは、結果が安定している場合にのみ有用です。SAM3 Videoのトラッカーは、自己注意およびクロス注意メカニズムを介してフレーム間で「masklets」（テンポラルオブジェクトセグメント）を伝播します。これにより、フレームごとの処理アプローチに悩まされるちらつきとドリフトが排除されます。

マスクガイド制御

apply_maskパラメータを切り替えて、異なるワークフロー用に:

true: セグメンテーションマスクを出力に直接適用。オブジェクト削除と背景クリーンアップに最適
false: セグメンテーションデータを適用せずに返す。ダウンストリームのコンポジティングパイプラインに最適

編集指向の設計

SAM3 Videoは分析だけではなく、実用的なビデオ編集用に構築されています。プロンプトに削除の意図を指定し（例：「背景の人物を削除し、照明は変わらないままにする」）、クリーンで編集対応の結果を取得します。

実世界のユースケース

VFXとポストプロダクション

ロトスコーピング自動化: 手動作業の数日を APIコールの数秒に置き換える
オブジェクト削除: ワイヤー、リグ、ブームマイク、または不要な背景要素をクリーンアップ
コンポジティング準備: フレームごとのマスキングなしに主体を分離

コンテンツ制作

背景置き換え: プレゼンターまたは製品をバーチャルセット配置用にセグメント化
ソーシャルメディア編集: TikTok、Instagram、YouTubeのビデオコンテンツの迅速なクリーンアップ
製品ショーケース: 雑然とした背景から製品を分離

ビデオ分析

オブジェクトカウントとトラッキング: 監視またはスポーツフッテージを通して特定の項目を監視
動作分析: シーン全体を通して個人または車両をトラッキング
品質管理: 製造ビデオフィードの欠陥を識別および報告

広告とマーケティング

A/Bテスト視覚: キャンペーンバリアント全体で背景または要素をスワップ
ローカライゼーション: 異なる市場向けテキストまたはブランド要素をセグメント化および置き換え
ダイナミックコンテンツ: 単一のシュートから複数のバージョンを作成

WaveSpeedAIでの開始

WaveSpeedAIのREST APIを介してSAM3 Videoを使用することは簡単です:

ビデオを準備: ファイルをアップロードまたは公開アクセス可能なURLを提供
プロンプトを作成: 明確で具体的な名詞を使用してセグメント化するものを説明
パラメータを構成: ワークフローのニーズに基づいてapply_maskを設定
推論を実行: リクエストを送信して処理済み結果を受け取る

APIパラメータ

パラメータ	必須	説明
`video`	はい	入力ビデオファイルまたは公開URL
`prompt`	はい	セグメンテーション用のテキスト指示（複数のターゲット用にカンマ区切り）
`apply_mask`	いいえ	マスクを出力ビデオに適用（デフォルト: `true`）

プロンプト作成のヒント

短い、具体的な名詞 を使用して確実なターゲット設定を実現
複数のオブジェクトの場合、カンマ区切りラベル を使用: person, bicycle, helmet
クリーンアップタスク用に制約を含める: remove the logo, preserve the shadows

透明な価格設定

SAM3 Videoは、シンプルな1秒単位の価格設定を使用し、請求時間は5～600秒の間で制限されます:

ビデオ時間	コスト
最大5秒	$0.05
10秒	$0.10
60秒	$0.60
600秒（最大）	$6.00

価格は5秒単位の増分で計算され、1単位あたり$0.05で、短いクリップと長いフッテージの両方に対して予測可能で予算に優しい価格を実現します。

WaveSpeedAIを選ぶ理由

WaveSpeedAIを通じてSAM3 Videoを実行することは、自ホスト型デプロイメントと比べて大きな利点があります:

コールドスタートなし: 推論は即座に開始。モデル読み込みの待機なし
インフラ管理なし: GPU プロビジョニング、CUDA 依存関係、スケーリングの悩みをスキップ
予測可能なコスト: 明確な1秒単位の価格設定で使用した分だけ支払い
シンプルなREST API: 標準HTTPリクエストでいかなるワークフローにも統合

最適な結果のためのベストプラクティス

安定したフッテージを使用: 明確な被写体分離と最小限のモーションブラーは最高のマスクをもたらす
プロンプトで具体的に: 精度が重要な場合、「Red sports car」は「car」より優れている
複雑なシーンでapply_maskを有効にする: より厳密な制御によってブリードスルーを防止
結果が流れる場合、実行ごとのターゲットを減らす: 複雑な複数オブジェクトのリクエストを焦点を絞ったパスに分割

今日からセグメント化を開始

SAM3 Videoは、エンタープライズグレードのビデオセグメンテーションをすべてのクリエイター、開発者、ビジネスにもたらします。VFXパイプラインを自動化したり、ビデオ分析ツールを構築したり、ソーシャルメディア用にコンテンツをクリーンアップするだけでも、WaveSpeedAIがアクセスを簡単にします。

WaveSpeedAIでSAM3 Videoを試す →

契約なし、最小値なし。必要な時に強力なAI推論を実行するだけです。