WaveSpeedAI Vibevoice 现已登陆WaveSpeedAI

免费试用 Wavespeed Ai Vibevoice
WaveSpeedAI Vibevoice 现已登陆WaveSpeedAI

认识 VibeVoice:长篇幅多说话人语音生成现已在 WaveSpeedAI 上推出

从文本创建播客级音频从未如此简单。今天,我们很高兴地宣布 VibeVoice 现已在 WaveSpeedAI 上推出—为您带来在单次请求中生成自然、富有表现力的长篇幅语音并支持多说话人的强大功能。

无论您是在制作播客、有声书、教育内容还是脚本对话,VibeVoice 都会将您的文本转换为专业级音频,听起来像真实对话,而不是机械式朗读。

VibeVoice 是什么?

VibeVoice 是一款先进的文本转语音模型,基于下一令牌扩散框架构建,将大型语言模型的上下文理解与高保真声学生成相结合。结果如何?语音捕捉自然的节奏、对话节奏和说话人之间的真实轮流。

VibeVoice 与传统语音合成解决方案的区别在于其处理扩展内容 的能力—在单次生成中最多可生成 90 分钟的音频—同时在整个过程中保持说话人一致性和自然对话流动。这使其非常适合超越快速语音片段的内容。

该模型使用以 7.5 Hz 的超低帧率运行的连续语音分词器,在保持音频保真度的同时大幅提高了处理长序列的计算效率。这一架构创新使 VibeVoice 能够处理 64K 上下文窗口,支持播客创作者和有声书制作者所需的扩展音频长度。

主要功能

  • 长篇幅语音生成:在单次请求中生成最多 90 分钟的连贯语音—完美适合完整播客剧集、有声书章节和讲座风格的叙述

  • 多说话人对话:在一次生成中支持最多 4 个不同的说话人,无需拼接多个输出就能实现采访、小组讨论和脚本对话

  • 一致的说话人身份:每个说话人在整个脚本中始终保持其独特的语音特征和对话风格,即使在冗长的内容中也能保持一致

  • 自然的对话式语音传递:针对对话式语音进行优化,具有适当的轮流、自然停顿和真实节奏—而不是逐句的机械式输出

  • 基于转录稿的输入:自然适用于脚本格式,支持说话人标签(S1:、S2: 等)用于清晰的多说话人指导

  • 英语和中文支持:完全支持世界上最广泛使用的两种语言

现实应用场景

播客制作

将您的节目脚本转换为完全制作的音频剧集。VibeVoice 擅长处理采访风格播客的来回动态,使得可以生成具有不同主持人和嘉宾语音的完整剧集成为可能。将您的转录稿组织为介绍、主要部分和结尾,让模型处理自然的对话流动。

有声书叙述

长篇幅连贯性对有声书至关重要,VibeVoice 提供了这一点。无论您是制作单一叙述者体验还是具有多个角色的完整演员有声剧,该模型在整个章节长度的内容中都能保持一致的语音身份和节奏。

教育内容

创建引人入胜的讲座内容、教程叙述或培训材料。自然的传递风格在冗长的教育课程中保持听众的参与度,而多说话人支持使问答格式或对话式教学方法成为可能。

内容本地化

凭借对英语和中文的支持,VibeVoice 使内容创作者能够为不同市场制作其内容的音频版本,在每种语言中保持自然的语音模式。

媒体脚本对话

游戏开发者、动画工作室和视频制作者可以使用 VibeVoice 为原型设计、临时语音轨道甚至最终制作生成对话—在单次生成中最多四个不同的角色自然说话。

在 WaveSpeedAI 上开始使用

在 WaveSpeedAI 上使用 VibeVoice 很简单:

  1. 导航到模型:访问 WaveSpeedAI 上的 VibeVoice 以访问模型的游乐场

  2. 准备您的转录稿:像写真实脚本一样写您的文本。对于多说话人内容,使用说话人标签如 S1:S2:。专注于自然、对话式的语言,具有适当的标点符号以指导传递

  3. 配置参数:如果使用内置选项,选择您喜欢的说话人语音,或按照游乐场架构进行多说话人设置

  4. 生成和迭代:点击运行,预览您的音频,根据需要细化您的转录稿

获得最佳效果的专业建议

  • 像转录稿一样书写:短话语、清晰的轮流和反映您想要如何说出台词的标点符号
  • 始终标记说话人标签:在整个脚本中使用清晰的模式如 S1:S2:
  • 避免对话重叠:将说话人轮流分开以获得清晰的输出
  • 谨慎使用方向提示:如 (pause) 的简短提示可能会有帮助,但结果可能会有所不同

以下是格式良好的输入示例:

S1: 欢迎回到节目。今天我们深入探讨人工智能语音生成。
S2: 这是一个迷人的领域。过去一年的质量改进令人瞩目。
S1: 让我们分解一下实际发生了什么变化。

为什么选择 WaveSpeedAI?

在 WaveSpeedAI 上运行 VibeVoice 为您提供了不同的优势:

  • 无冷启动:您的请求立即开始处理—无需等待模型初始化
  • 快速推理:优化的基础设施快速提供结果,即使对于长篇幅内容也是如此
  • 经济实惠的定价:仅从每次运行 $0.015 起,在生成前显示透明的定价
  • 生产级 API:随时可用的 REST 端点,可无缝集成到您的应用程序和工作流中
  • 可靠的基础设施:企业级可用性,用于生产工作负载

立即开始创建

VibeVoice 代表了文本转语音技术的重大进步。长篇幅功能、多说话人支持和自然对话传递的结合为大多数创作者和开发者以前无法接触的可能性敞开了大门。

无论您是独立播客制作者、游戏工作室、在线学习平台还是探索新格式的内容创作者,WaveSpeedAI 上的 VibeVoice 都为您提供了使用专业级音频将脚本变为现实的工具。

准备好体验差异了吗? 在 WaveSpeedAI 上尝试 VibeVoice 并立即开始生成自然、富有表现力的长篇幅语音。