Inworld 1.5 Mini现已登陆WaveSpeedAI

Inworld 1.5 Mini文本转语音现已登陆WaveSpeedAI

语音正在成为AI应用的默认交互界面。从对话式智能体到互动游戏，将文字即时且经济地转化为自然语音的能力，已不再是可有可无的功能，而是必备要求。WaveSpeedAI非常高兴地宣布推出Inworld 1.5 Mini——一款超快速、超低价的文本转语音模型，仅需$0.005/1,000字符即可实现自然的多语言语音合成。

Inworld 1.5 Mini由Inworld AI打造——该团队旗下模型在Artificial Analysis TTS排行榜位居第一——为需要高速、大规模部署却又不想超出预算的开发者带来生产级语音合成能力。

什么是Inworld 1.5 Mini？

Inworld 1.5 Mini是Inworld TTS-1.5系列的轻量版，专为对延迟敏感和高并发场景而设计。相较于注重最高自然度和表现力的Inworld 1.5 Max，Mini优先追求极速响应——P90首音延迟低于130毫秒，比上一代模型快4倍。

尽管架构更为紧凑，Mini并不牺牲质量。TTS-1.5一代相较于早期Inworld模型，表现力提升30%，词错误率降低40%。最终效果是：这款模型听起来极为自然，响应几乎即时——非常适合每一毫秒都至关重要的实时交互体验。

核心功能

超低延迟

P90首音延迟低于130毫秒 —— 跻身当今最快的TTS模型之列
比上一代Inworld模型快4倍
专为实时对话管道和交互式应用优化

覆盖15种语言的65+多语言声音

Inworld 1.5 Mini内置丰富的声音库，涵盖：

英语 —— 25种独特声音，从专业播音到富有表现力的角色配音
中文 —— 4种声音，包含沉稳、活力和叙述风格
日语、韩语 —— 母语级发音，自然语调
欧洲语言 —— 法语、德语、西班牙语、葡萄牙语、意大利语、荷兰语、波兰语、俄语
南亚及中东语言 —— 印地语、希伯来语、阿拉伯语

每种声音都有其独特个性——从适合有声书的Blake浑厚亲切音调，到完美演绎游戏反派的Dominus威胁机器感，再到适合冥想内容的Luna舒缓节奏。

精细化控制

语速调节 —— 公告播报可加速，戏剧性叙述可放慢
温度控制 —— 低值输出稳定可预期；高值输出更动态、更具表现力
简洁参数 —— 仅需文本、声音、语速和温度，无需复杂配置

无可比拟的定价

$0.005/1,000字符，Inworld 1.5 Mini是市场上最具性价比的TTS方案之一——在相近质量水平下，比竞品最多实惠25倍。字符数向上取整至最近的1,000，计费透明可预期。

字符数	费用
最多1,000	$0.005
最多5,000	$0.025
最多10,000	$0.050

实际应用场景

对话式AI与语音智能体

Inworld 1.5 Mini低于130毫秒的延迟，使其成为语音聊天机器人、客服智能体和虚拟助手的首选。用户能体验流畅自然的对话，而不会遭遇较慢TTS系统带来的尴尬停顿。多语言声音库意味着你可以从第一天起就实现全球部署。

游戏与互动娱乐

借助即时、富有表现力的语音合成，为NPC对话、游戏旁白和角色配音赋能。有了Hades（威严粗犷）、Pixie（音调高亢俏皮）、Edward（语速飞快、街头气息）等声音，游戏开发者拥有了一套现成的角色阵容——原型开发或独立制作无需配音演员。

大批量内容生产

需要为电子学习平台、自动化新闻服务或无障碍层生成数千条音频片段？Mini低成本与快速处理的组合，使大规模批量音频生成在经济上切实可行。草稿和迭代阶段使用Mini，最终需要最高质量时切换至Inworld 1.5 Max。

多语言内容交付

通过单一API端点创建15种语言的音频内容。无论是本地化应用、制作多语言播客，还是构建翻译管道，Mini都能以每种语言的母语级发音和语调完成任务。

无障碍访问

以低廉成本将书面内容——文章、文档、通知——转化为语音，让你的产品对视障用户或偏好收听而非阅读的用户更加友好。

在WaveSpeedAI上快速上手

在WaveSpeedAI上使用Inworld 1.5 Mini只需几行代码：

import wavespeed

output = wavespeed.run(
    "inworld/inworld-1.5-mini/text-to-speech",
    {
        "text": "Welcome to WaveSpeedAI. The fastest way to bring AI to production.",
        "voice_id": "Olivia",
        "speaking_rate": 1,
        "temperature": 1,
    },
)

print(output["outputs"][0])  # 音频URL

操作步骤

准备文本 —— 输入或粘贴需要转换为语音的内容
选择声音 —— 从15种语言的65+预设声音中选择（如Ashley温暖自然，Carter广播主持风格，Asuka亲切日语）
调整播放参数 —— 设置speaking_rate控制节奏，temperature控制表现力
生成 —— 提交请求，获取可下载的音频文件

使用技巧

speaking_rate保持在1.0附近可获得自然节奏——戏剧性朗读可降低，快速播报可提高
较低的temperature输出更稳定可预期——适合自动化系统
将长文本拆分为逻辑段落，有助于获得更好的节奏感和自然停顿
始终匹配声音语言与文本语言，以获得最佳发音效果
从Mini开始快速原型开发，最终制作音频时升级至Inworld 1.5 Max

为什么选择WaveSpeedAI？

通过WaveSpeedAI运行Inworld 1.5 Mini，不只是获得模型访问权限：

零冷启动 —— 请求即时响应，无初始化延迟
卓越性能 —— 优化的基础设施持续提供快速响应
价格实惠 —— 透明的按量计费，无隐藏费用
简洁REST API —— 通过直观的推理端点轻松集成至任何应用
生产就绪 —— 面向大规模可靠性构建，高可用性保障

总结

Inworld 1.5 Mini击中了开发者一直寻求的甜蜜点：一款足够快以支持实时应用、足够便宜以支撑大批量生产、足够多能以覆盖15种语言和65+富有表现力声音的文本转语音模型。依托Artificial Analysis排行榜第一的TTS技术，并通过WaveSpeedAI零冷启动基础设施交付，这是为你的应用添加自然语音最实用的路径。

无论你是在构建语音智能体、生成游戏对话、制作多语言内容，还是让产品更具无障碍性，WaveSpeedAI上的Inworld 1.5 Mini都以速度、质量和性价比助你实现目标。

立即在WaveSpeedAI上体验Inworld 1.5 Mini，以极低成本开启生产级语音合成之旅。