WaveSpeedAI Molmo2 Video Understanding現已登陸WaveSpeedAI
Molmo2-4B Video Understanding:分析視頻並執行專門任務(通用、摘要、分析、計數、場景描述)。開源視覺語言模型
WaveSpeedAI Paddle Ocr現已登陸WaveSpeedAI
PaddleOCR-VL 是一個超緊湊的 0.9B 參數視覺語言模型,用於文檔解析,支援 109 種語言,具有文本、表格、公式和圖表識別功能
OpenAI Whisper With Video 現已登陸WaveSpeedAI
OpenAI Whisper Large v3(影片轉文字)可直接從影片檔案提供高精度多語言轉錄,具有自動語言檢測和選項功能
WaveSpeedAI Qwen Image 2512 LoRA Trainer現已登陸WaveSpeedAI
Qwen-Image-2512 LoRA Trainer 讓您訓練自訂 LoRA 模型的速度快 10 倍,支援風格、角色和物件訓練。從概念到模型僅需幾分鐘,不需數小時。
WaveSpeedAI Qwen Image Text-to-Image 2512 LoRA現已登陸WaveSpeedAI
Qwen-Image-2512 LoRA 是一個增強的 20B MMDiT 文字生成圖像模型,支持 LoRA 以實現快速自訂和精細圖像生成。已準備好進行 REST 推理
WaveSpeedAI 影片背景移除器現已登陸WaveSpeedAI
WaveSpeed 影片背景移除器可以用自訂影像替換或移除影片背景。上傳或貼上您的影片連結,然後提供背景影像
WaveSpeedAI Z Image Turbo Controlnet現已登陸WaveSpeedAI
Z-Image-Turbo ControlNet 通過結構控制信號(深度、邊緣檢測、姿態)生成圖像,實現精確的構圖控制。提供可立即使用的 REST 推理。
xAI Grok 2 Image現已登陸WaveSpeedAI
Grok 2 Image是xAI最新的圖像生成模型,可將簡單的文字提示在幾秒內轉換為清晰、逼真的視覺效果。從產品照到社交媒體
Z AI CogView 4現已登陸WaveSpeedAI
Z-AI CogView-4 能從文字提示生成高品質影像,快速準確地理解使用者描述,讓 AI 更精確地表達影像
Z AI Glm Image Edit 現已登陸WaveSpeedAI
GLM-Image Edit 是一個功能強大的圖像到圖像編輯模型,可根據文本提示轉換圖像。隨時可用的 REST 推理 API、最佳性能、無需聯合
Z AI Glm Image 文字生成圖像現已登陸WaveSpeedAI
Z-AI GLM Image 能從文字提示生成高質量圖像,具有增強的用戶描述理解能力,生成的圖像更精確且
Kling 2.6 舞蹈動畫動作控制:設置和唇同步技巧
使用 Kling 2.6 動作控制製作舞蹈動畫的實用技巧 — 設置、身體部位優先級、節拍對齐和修復腳步滑動與抖動。