Molmo2 Video UnderstandingがWaveSpeedAIに登場
Molmo2-4B Video Understanding: 専門的なタスク(一般分析、要約、詳細分析、カウント、シーン説明)でビデオを分析します。オープンソースのビジョン言語モデル
OpenAI Whisper Large v3 (Video-to-Text)がWaveSpeedAIに登場
OpenAI Whisper Large v3(ビデオ音声認識)は、ビデオファイルから直接高精度な多言語文字起こしを提供し、自動言語検出とオプション機能を備えています
Paddle OcrがWaveSpeedAIに登場
PaddleOCR-VLは、ドキュメント解析用の超小型0.9Bパラメータビジョンランゲージモデルで、109言語をサポートし、テキスト、表、数式、チャート認識に対応しています
Qwen Image 2512 LoRA Trainer、WaveSpeedAIに登場
Qwen-Image-2512 LoRA Trainerは、スタイル、キャラクター、オブジェクトのトレーニングで、カスタムLoRAモデルを10倍高速でトレーニングできます。コンセプトからモデルまで、数時間ではなく数分で実現します。
Qwen Image Text-to-Image 2512 LoRAがWaveSpeedAIに登場
Qwen-Image-2512 LoRAは、LoRAサポート付きの強化版20B MMDiTテキスト画像生成モデルで、高速カスタマイズと洗練された画像生成が可能です。すぐに使用可能なREST推論機能付き
WaveSpeedAI Video Background RemoverがWaveSpeedAIに登場
WaveSpeed Video Background Removerはビデオの背景をカスタム画像に置き換えたり削除したりします。ビデオをアップロードまたはリンクを貼り付けて、背景画像を提供してください
Z Image Turbo ControlNetがWaveSpeedAIに登場
Z-Image-Turbo ControlNetは、構造的制御信号(深度、Canny エッジ、ポーズ)によってガイドされた画像を生成し、正確な構成制御を実現します。すぐに使用可能な REST インターフェース
Z AI CogView 4がWaveSpeedAIに登場
Z-AI CogView-4は、テキストプロンプトから高品質な画像を生成し、ユーザーの説明を素早く正確に理解し、AIがより正確に画像を表現できます
Grok 2 ImageがWaveSpeedAIに登場
Grok 2 Imageはxaの最新画像生成モデルで、シンプルなテキストプロンプトを数秒で鮮明でフォトリアルなビジュアルに変換します。製品写真からソーシャルメディア
Z AI Glm ImageがWaveSpeedAIに登場
Z-AI GLM Imageはテキストプロンプトから高品質な画像を生成し、ユーザーの説明をより深く理解することで、より正確で詳細な画像を生成します
GLM-Image EditがWaveSpeedAIに登場
GLM-Image Editは、テキストプロンプトに基づいて画像を変換する強力な画像編集モデルです。すぐに使えるREST推論API、最高のパフォーマンス、ノーコード
Kling 2.6モーションコントロールでダンスアニメーション:設定とリップシンク Tips
Kling 2.6モーションコントロールでダンスをアニメーション化するための実践的なTips — 設定、ボディパート優先度、ビート合わせ、足のスライディングとジッターの修正。