
Detect, identify, and segment objects in images and videos with AI models on WaveSpeed

Moondream3 Point finds objects in images and returns precise coordinate points for computer vision tasks, enabling accurate point localization. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

Moondream3 Detect: Precise object bounding boxes in images for accurate computer vision localization. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

Advanced SAM 3D body generation model for creating detailed 3D human body models from images with optional mask-based segmentation. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

Advanced SAM 3D objects generation model for creating detailed 3D object models from images with text prompts and optional mask-based segmentation. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

SAM3 Video is a unified foundation model for prompt-based video segmentation. Provide text, point, box, or mask prompts and the model segments and tracks targets across frames with strong temporal consistency. Supports concept-level (“segment anything with concepts”) and multi-object masks for editing, analytics, and VFX. Ready-to-use REST inference API with fast response, no cold starts, and affordable pricing.

SAM 3 is a unified foundation model for promptable image segmentation using text, points, or boxes to detect and segment objects. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

SAM 3 Video RLE is a unified foundation model for prompt-based segmentation in video. Track and segment objects across frames using text, points, or boxes, returning RLE encoded masks for efficient processing. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

SAM 3 RLE is a unified foundation model for promptable image segmentation using text, points, or boxes to detect and segment objects. Returns RLE (Run-Length Encoding) encoded masks for efficient storage and processing. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

Bria Embed Product seamlessly integrates product images into scene backgrounds with natural lighting and perspective matching. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

VOID Video Inpainting removes objects from videos using mask-guided inpainting. Supports quad-mask or auto-generated SAM-3 masks, optional Pass 2 refinement for temporal consistency, adjustable denoising steps, guidance scale, and temporal window size. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.
Object Detection and Segmentation コレクションのすべてのモデルを単一の REST API で実行できます。生成ごとに課金 — サブスクなし、最低料金なし — で、稼働率 99.9% のインフラ上の業界トップクラスのレイテンシを提供します。
各 Object Detection and Segmentation モデルにコールごとの料金が設定されています。料金は各モデルのページに表示され、プラットフォーム手数料はかかりません。
ほとんどの Object Detection and Segmentation 画像モデルは 2 秒以内に完了します。動画や 3D モデルはセルフホスト構成より数倍高速です。
マルチリージョンのフェイルオーバーと自動リトライで、プロバイダー障害時にも本番トラフィックを維持します。
各モデルにはモデルページ上にコール単価が記載されています。成功した生成ごとに課金され、サブスクリプション料金や最低料金はありません。
このコレクションの画像モデルは通常 2 秒以内に完了します。動画や 3D モデルは長さや解像度に依存しますが、セルフホスト実行より数倍高速なことが多いです。
はい — すべてのアカウントは登録時に 1 ドル分の無料クレジットを取得でき、クレジットカードなしでほとんどの Object Detection and Segmentation モデルを試すのに十分です。
標準アカウントには十分な同時実行ジョブ枠があります。Enterprise プランではカスタム RPM、より高い同時実行性、専用キャパシティを提供します — 詳細は営業へお問い合わせください。