#model-release

317 articles - Page 10

MiniMax Hailuo 2.3 T2V Standard 现已登陆WaveSpeedAI

Hailuo 2.3 是一款文本到视频模型，可生成具有物理感知的 768p 视频，效率提高 2.5 倍，复杂指令响应率达 85%。提供即用型 REST 推理 API，性能最佳，无冷启动，价格实惠。

Google 的 Gemini 3.0 Pro（Gemini 3.0 Pro 图像）编辑功能支持图像编辑和文本生成图像，具有 4K 级输出能力，适用于移动设备。提供即用型 REST 推理 API、最佳性能、无冷启动、价格低廉。

来自 Black Forest Labs 的 FLUX.2 [dev] 提供快速、工作室级别的文本到图像生成，具有增强的真实感、更清晰的文本渲染和原生编辑功能，可实现快速迭代。提供即用型 REST 推理 API、最佳性能、零冷启动、经济实惠的价格。

Google的Gemini 3.0 Pro（Gemini 3.0 Pro预览版）是一款尖端的文本转图像模型，支持高分辨率4K图像生成，针对手机进行了优化。即用型REST推理API、最佳性能、无冷启动、价格实惠。

InfiniteTalk fast multi 将单个图像和两个音频输入转换为多角色说话或唱歌视频。即用型 REST 推理 API，最佳性能，无冷启动，价格实惠。

HunyuanVideo-Foley通过上传视频并使用文本提示描述所需声音，生成逼真的Foley和环境音频。提供即用型REST推理API、最佳性能、无冷启动、价格实惠。

ThinkSound 将上传的视频转换为逼真的、文本引导的音频。上传视频并添加文本提示以生成逼真的声音。随时可用的 REST 推理 API、最佳性能、无冷启动、价格实惠。

WAN 2.2 视频编辑让您可以通过文本提示修改视频（例如更改服装或角色）。采用 WAN 2.2 技术，支持 480p（$0.20/5秒）和 720p（$0.40/5秒），最长可处理 120 秒视频。即用型 REST 推理 API，性能最佳，无冷启动延迟，价格实惠。

MiniMax Speech 02 HD是MiniMax的高清文本转语音模型，提供清晰的高清语音；定价为每1000个字符0.05美元。随时可用的REST推理API，最佳性能，无冷启动，价格实惠。

文心一言图像编辑是一个 20B MMDiT 图像到图像模型，提供精确的双语（中文和英文）文本编辑，同时保留风格。提供即用型 REST 推理 API、最佳性能、无冷启动、价格实惠。

PixVerse V5 Effects可将图像转换为流畅自然的短视频，动作真实细腻，支持5秒/8秒时长及720p/1080p输出规格。即用型REST API，无冷启动，性能卓越，价格实惠。

PixVerse V5 将图像转换为简短、流畅、自然的视频。5 秒视频：$0.15（360p/540p）、$0.20（720p）、$0.40（1080p）。即用型 REST 推理 API，性能最佳，无冷启动，价格实惠。