WaveSpeedAI 部落格 - Page 38

Molmo2-4B Video Understanding：分析視頻並執行專門任務（通用、摘要、分析、計數、場景描述）。開源視覺語言模型

PaddleOCR-VL 是一個超緊湊的 0.9B 參數視覺語言模型，用於文檔解析，支援 109 種語言，具有文本、表格、公式和圖表識別功能

OpenAI Whisper Large v3（影片轉文字）可直接從影片檔案提供高精度多語言轉錄，具有自動語言檢測和選項功能

Qwen-Image-2512 LoRA Trainer 讓您訓練自訂 LoRA 模型的速度快 10 倍，支援風格、角色和物件訓練。從概念到模型僅需幾分鐘，不需數小時。

Qwen-Image-2512 LoRA 是一個增強的 20B MMDiT 文字生成圖像模型，支持 LoRA 以實現快速自訂和精細圖像生成。已準備好進行 REST 推理

WaveSpeed 影片背景移除器可以用自訂影像替換或移除影片背景。上傳或貼上您的影片連結，然後提供背景影像

Z-Image-Turbo ControlNet 通過結構控制信號（深度、邊緣檢測、姿態）生成圖像，實現精確的構圖控制。提供可立即使用的 REST 推理。

Grok 2 Image是xAI最新的圖像生成模型，可將簡單的文字提示在幾秒內轉換為清晰、逼真的視覺效果。從產品照到社交媒體

Z-AI CogView-4 能從文字提示生成高品質影像，快速準確地理解使用者描述，讓 AI 更精確地表達影像

GLM-Image Edit 是一個功能強大的圖像到圖像編輯模型，可根據文本提示轉換圖像。隨時可用的 REST 推理 API、最佳性能、無需聯合

Z-AI GLM Image 能從文字提示生成高質量圖像，具有增強的用戶描述理解能力，生成的圖像更精確且

使用 Kling 2.6 動作控制製作舞蹈動畫的實用技巧 — 設置、身體部位優先級、節拍對齐和修復腳步滑動與抖動。