Molmo2 Image Content Moderatorが WaveSpeedAIに登場
Molmo2-4B Image Content Moderator: 画像コンテンツの安全性、適切性、ポリシー準拠性を分析します。暴力、ヌード、グロテスク、その他の有害な内容を検出します
Molmo2 Image QAがWaveSpeedAIに登場
Molmo2-4B Image QA: 複数画像比較に対応した画像に関する質問への回答(1~2画像)。オープンソースのビジョン言語モデル。すぐに使えるREST API
WaveSpeedAI Molmo2 Prompt OptimizerがWaveSpeedAIに登場
Molmo2-4B Prompt Optimizer:画像・動画生成用のプロンプトを、インテリジェントな再構成、スタイルガイダンス、コンテキスト対応の改善で強化します。オープン
WaveSpeedAI Molmo2 Text Content ModeratorがWaveSpeedAIに登場
Molmo2-4B Text Content Moderator: テキストコンテンツの安全性、適切性、ポリシー準拠を分析します。ヘイトスピーチ、暴力、性的コンテンツなどを検出
WaveSpeedAI Molmo2 Video Captionerが WaveSpeedAIに登場
Molmo2-4B Video Captioner: ビデオの詳細で正確なキャプションを生成でき、カスタマイズ可能な詳細レベル(低、中、高)に対応しています。オープンソースのビジョン言語モデル
Molmo2 Video Content ModeratorがWaveSpeedAIに登場
Molmo2-4B Video Content Moderatorは、ビデオコンテンツの安全性、適切性、ポリシー準拠性を分析します。暴力、ヌード、グロ、その他の有害なコンテンツを検出します
Molmo2 Video QAがWaveSpeedAIに登場
Molmo2-4B Video QA:ビデオコンテンツに関する質問に時間的理解を持って答えます。オープンソースのビジョンランゲージモデル。すぐに使えるREST API、コールドスタートなし
Molmo2 Video UnderstandingがWaveSpeedAIに登場
Molmo2-4B Video Understanding: 専門的なタスク(一般分析、要約、詳細分析、カウント、シーン説明)でビデオを分析します。オープンソースのビジョン言語モデル
OpenAI Whisper Large v3 (Video-to-Text)がWaveSpeedAIに登場
OpenAI Whisper Large v3(ビデオ音声認識)は、ビデオファイルから直接高精度な多言語文字起こしを提供し、自動言語検出とオプション機能を備えています
Paddle OcrがWaveSpeedAIに登場
PaddleOCR-VLは、ドキュメント解析用の超小型0.9Bパラメータビジョンランゲージモデルで、109言語をサポートし、テキスト、表、数式、チャート認識に対応しています
Qwen Image 2512 LoRA Trainer、WaveSpeedAIに登場
Qwen-Image-2512 LoRA Trainerは、スタイル、キャラクター、オブジェクトのトレーニングで、カスタムLoRAモデルを10倍高速でトレーニングできます。コンセプトからモデルまで、数時間ではなく数分で実現します。
Qwen Image Text-to-Image 2512 LoRAがWaveSpeedAIに登場
Qwen-Image-2512 LoRAは、LoRAサポート付きの強化版20B MMDiTテキスト画像生成モデルで、高速カスタマイズと洗練された画像生成が可能です。すぐに使用可能なREST推論機能付き