WaveSpeed 博客

Molmo2-4B Image Content Moderator：分析图像内容的安全性、适当性和政策合规性。检测暴力、裸露、血腥和其他有害内容

Molmo2-4B Image QA: 支持多图像比较（1-2张图像）回答有关图像的问题。开源视觉语言模型。即用型REST API

Molmo2-4B Prompt Optimizer：通过智能重组、风格指导和上下文感知的改进来增强图像和视频生成提示词。开源

Molmo2-4B文本内容审核员：分析文本内容的安全性、适当性和政策合规性。检测仇恨言论、暴力、性内容及其他有害内容。

Molmo2-4B 视频字幕生成器：为视频生成详细准确的字幕，支持可自定义的细节级别（低、中、高）。开源视觉语言模型

Molmo2-4B Video Content Moderator 分析视频内容的安全性、适当性和政策合规性。检测暴力、裸露、血腥和其他有害内容

Molmo2-4B Video QA：具有时间理解能力，回答关于视频内容的问题。开源视觉语言模型。即用型REST API，无冷启动

Molmo2-4B Video Understanding：使用专门任务分析视频（通用、总结、分析、计数、场景描述）。开源视觉语言模型

OpenAI Whisper Large v3（视频转文本）直接从视频文件提供高精度多语言转录，具备自动语言检测和可选功能

PaddleOCR-VL 是一个超紧凑的 0.9B 参数视觉语言模型，用于文档解析，支持 109 种语言的文本、表格、公式和图表识别

Qwen-Image-2512 LoRA Trainer让您能够快速训练自定义LoRA模型，速度快10倍，支持风格、人物和物体训练。从概念到模型，只需几分钟而非数小时

Qwen-Image-2512 LoRA 是一个增强的 20B MMDiT 文本转图像模型，支持 LoRA，可快速自定义和精细化图像生成。支持即用型 REST 推理