WaveSpeed 博客

Qwen Image Max Edit是一个AI图像编辑模型，支持文本提示进行图像编辑，同时支持中文和英文语言。即用型REST推理API，性能最佳

Qwen Image Max是一款高质量文本生成图像模型，支持中文和英文提示词。提供即用型REST推理API，最佳性能

Qwen3 TTS：具有风格控制的多语言、多声音文本转语音合成。支持 11 种语言和 9 个语音角色。即用型 REST 推理 API

Qwen3 TTS Voice Clone：从参考音频克隆任何声音并以该声音生成语音。开箱即用的REST推理API，性能最佳，无冷启动

Qwen3 TTS Voice Design：用自然语言描述生成具有自定义音色特征的语音。开箱即用的REST推理API，性能最佳，无需

SAM 3 是一个统一的基础模型，用于可提示的图像分割，可使用文本、点或框来检测和分割对象。提供即用型 REST 推理 API

SAM 3 RLE是一个统一的基础模型，用于可提示的图像分割，支持使用文本、点或框来检测和分割对象。返回RLE（行程长度编码）格式的分割结果。

SAM 3 Video RLE是一个统一的基础模型，用于视频中基于提示的分割。使用文本、点或框跟踪和分割视频帧中的对象，retu

Z-Image-Base LoRA (6B) 支持完整 CFG 和外部 LoRA 支持，能够生成高质量文本到图像。支持负面提示词应用

Z-Image Base LoRA Trainer – 从自己的数据集训练自定义图像 LoRA 模型,支持 zip 上传、自动调优默认设置和快速迭代,用于品牌、角色

Z-Image-Base 是一个 60 亿参数的文本到图像模型，支持完整的 CFG。支持负面提示和微调功能，以获得最大控制

对比OpenMOSS MOVA、WAN 2.2 Spicy、WAN 2.6 Flash、Sora 2和Seedance 1.5 Pro的视频生成与音频功能。包括特性、定价和推荐。