WaveSpeed 部落格

Molmo2-4B Image Content Moderator：分析圖像內容的安全性、適當性和政策合規性。檢測暴力、裸露、血腥和其他有害內容

Molmo2-4B Image QA：支援多圖像比較（1-2 張影像）回答關於影像的問題。開源視覺語言模型。可即時使用的 REST API

Molmo2-4B 提示詞優化器：通過智能重組、風格指導和情境感知改進，為圖像和視頻生成增強提示詞。開放

Molmo2-4B 文本內容審核器：分析文本內容的安全性、適當性和政策合規性。檢測仇恨言論、暴力、性內容等

Molmo2-4B Video Captioner：為影片生成詳細、準確的字幕，支援可自訂的詳細程度（低、中、高）。開源視覺語言模型

Molmo2-4B 視頻內容審核器分析視頻內容的安全性、適當性和政策合規性。檢測暴力、裸露、血腥和其他有害內容

Molmo2-4B Video QA：透過時間理解來回答視頻內容的問題。開源視覺語言模型。隨時可用的REST API，無冷啟動

Molmo2-4B Video Understanding：分析視頻並執行專門任務（通用、摘要、分析、計數、場景描述）。開源視覺語言模型

OpenAI Whisper Large v3（影片轉文字）可直接從影片檔案提供高精度多語言轉錄，具有自動語言檢測和選項功能

PaddleOCR-VL 是一個超緊湊的 0.9B 參數視覺語言模型，用於文檔解析，支援 109 種語言，具有文本、表格、公式和圖表識別功能

Qwen-Image-2512 LoRA Trainer 讓您訓練自訂 LoRA 模型的速度快 10 倍，支援風格、角色和物件訓練。從概念到模型僅需幾分鐘，不需數小時。

Qwen-Image-2512 LoRA 是一個增強的 20B MMDiT 文字生成圖像模型，支持 LoRA 以實現快速自訂和精細圖像生成。已準備好進行 REST 推理