
Detect objects, faces, poses, text, depth, and more with powerful AI detection and analysis models on WaveSpeed

Scalable Text Content Moderator for filtering and classifying user-generated text, ideal for safety and compliance workflows. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

Image Content Moderator provides automated image moderation to detect and flag policy-violating or inappropriate images for automation. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

Moondream3 Point finds objects in images and returns precise coordinate points for computer vision tasks, enabling accurate point localization. Ready-to-use REST inference API, best performance, no coldstarts, affordable pricing.

Molmo2-4B Image Captioner: Generate detailed, accurate captions for images with customizable detail levels (low, medium, high). Open-source vision-language model with object grounding capabilities. Ready-to-use REST API, no cold starts, affordable pricing.

Molmo2-4B Video Captioner: Generate detailed, accurate captions for videos with customizable detail levels (low, medium, high). Open-source vision-language model with temporal understanding capabilities. Ready-to-use REST API, no cold starts, duration-based pricing.

Molmo2-4B Video QA: Answer questions about video content with temporal understanding. Open-source vision-language model. Ready-to-use REST API, no cold starts, duration-based pricing.

Molmo2-4B Video Understanding: Analyze videos with specialized tasks (general, summary, analysis, counting, scene description). Open-source vision-language model with temporal understanding. Ready-to-use REST API, no cold starts, duration-based pricing.

Molmo2-4B Image QA: Answer questions about images with support for multi-image comparison (1-2 images). Open-source vision-language model. Ready-to-use REST API, no cold starts, affordable pricing.

Molmo2-4B Text Content Moderator: Analyze text content for safety, appropriateness, and policy compliance. Detects hate speech, violence, sexual content, and other harmful categories. Open-source vision-language model. Ready-to-use REST API, no cold starts, affordable pricing.

Molmo2-4B Image Content Moderator: Analyze image content for safety, appropriateness, and policy compliance. Detects violence, nudity, gore, and other harmful visual content. Open-source vision-language model. Ready-to-use REST API, no cold starts, affordable pricing.

Molmo2-4B Video Content Moderator analyzes video content for safety, appropriateness, and policy compliance. Detects violence, nudity, gore, and other harmful visual content in videos using an open-source vision-language model. Ready-to-use REST inference API, best performance, no cold starts, affordable pricing.
Content Detection Models コレクションのすべてのモデルを単一の REST API で実行できます。生成ごとに課金 — サブスクなし、最低料金なし — で、稼働率 99.9% のインフラ上の業界トップクラスのレイテンシを提供します。
各 Content Detection Models モデルにコールごとの料金が設定されています。料金は各モデルのページに表示され、プラットフォーム手数料はかかりません。
ほとんどの Content Detection Models 画像モデルは 2 秒以内に完了します。動画や 3D モデルはセルフホスト構成より数倍高速です。
マルチリージョンのフェイルオーバーと自動リトライで、プロバイダー障害時にも本番トラフィックを維持します。
各モデルにはモデルページ上にコール単価が記載されています。成功した生成ごとに課金され、サブスクリプション料金や最低料金はありません。
このコレクションの画像モデルは通常 2 秒以内に完了します。動画や 3D モデルは長さや解像度に依存しますが、セルフホスト実行より数倍高速なことが多いです。
はい — すべてのアカウントは登録時に 1 ドル分の無料クレジットを取得でき、クレジットカードなしでほとんどの Content Detection Models モデルを試すのに十分です。
標準アカウントには十分な同時実行ジョブ枠があります。Enterprise プランではカスタム RPM、より高い同時実行性、専用キャパシティを提供します — 詳細は営業へお問い合わせください。