WaveSpeedAI Molmo2 Image Content Moderator现已登陆WaveSpeedAI
Molmo2-4B Image Content Moderator:分析图像内容的安全性、适当性和政策合规性。检测暴力、裸露、血腥和其他有害内容
WaveSpeedAI Molmo2 Image Qa现已登陆WaveSpeedAI
Molmo2-4B Image QA: 支持多图像比较(1-2张图像)回答有关图像的问题。开源视觉语言模型。即用型REST API
WaveSpeedAI Molmo2 Prompt Optimizer现已登陆WaveSpeedAI
Molmo2-4B Prompt Optimizer:通过智能重组、风格指导和上下文感知的改进来增强图像和视频生成提示词。开源
WaveSpeedAI Molmo2 Text Content Moderator现已登陆WaveSpeedAI
Molmo2-4B文本内容审核员:分析文本内容的安全性、适当性和政策合规性。检测仇恨言论、暴力、性内容及其他有害内容。
WaveSpeedAI Molmo2 视频字幕生成器现已登陆WaveSpeedAI
Molmo2-4B 视频字幕生成器:为视频生成详细准确的字幕,支持可自定义的细节级别(低、中、高)。开源视觉语言模型
WaveSpeedAI Molmo2 Video Content Moderator现已登陆WaveSpeedAI
Molmo2-4B Video Content Moderator 分析视频内容的安全性、适当性和政策合规性。检测暴力、裸露、血腥和其他有害内容
WaveSpeedAI Molmo2 Video Qa现已登陆WaveSpeedAI
Molmo2-4B Video QA:具有时间理解能力,回答关于视频内容的问题。开源视觉语言模型。即用型REST API,无冷启动
WaveSpeedAI Molmo2 Video Understanding现已登陆WaveSpeedAI
Molmo2-4B Video Understanding:使用专门任务分析视频(通用、总结、分析、计数、场景描述)。开源视觉语言模型
OpenAI Whisper With Video现已登陆WaveSpeedAI
OpenAI Whisper Large v3(视频转文本)直接从视频文件提供高精度多语言转录,具备自动语言检测和可选功能
WaveSpeedAI Paddle Ocr 现已登陆WaveSpeedAI
PaddleOCR-VL 是一个超紧凑的 0.9B 参数视觉语言模型,用于文档解析,支持 109 种语言的文本、表格、公式和图表识别
Qwen Image 2512 LoRA Trainer现已登陆WaveSpeedAI
Qwen-Image-2512 LoRA Trainer让您能够快速训练自定义LoRA模型,速度快10倍,支持风格、人物和物体训练。从概念到模型,只需几分钟而非数小时
Qwen Image Text-to-Image 2512 LoRA现已登陆WaveSpeedAI
Qwen-Image-2512 LoRA 是一个增强的 20B MMDiT 文本转图像模型,支持 LoRA,可快速自定义和精细化图像生成。支持即用型 REST 推理