WaveSpeedAI 歌曲生成现已登陆WaveSpeedAI

介绍 SongGeneration (LeVo)：利用 AI 将您的歌词转化为专业歌曲

AI 驱动的音乐创作世界已经达到了一个新的里程碑。WaveSpeedAI 很高兴地宣布 SongGeneration (LeVo) 现已可用，这是由腾讯 AI 实验室开发的突破性文本转歌曲模型，可从您的歌词生成完整的高质量歌曲。这个开源模型代表了 AI 音乐生成的重大进步，其效果可与 Suno 4.5 等商业平台相媲美。

什么是 SongGeneration (LeVo)？

SongGeneration 是一个基于语言模型的音乐生成框架，它将语言模型 (LeLM) 与先进的音乐编码器相结合，能够从结构化歌词输入生成带有人声的完整歌曲。与生成器乐或短片段的简单文本转音频模型不同，SongGeneration 可以创建完整的歌曲——人声、伴奏和专业级制作——全部来自结构化歌词输入。

该模型可以生成长达 4 分 30 秒的歌曲，支持多种语言，包括英文、中文、西班牙文和日文。其独特之处在于它的灵活性：您可以输出人声和伴奏的混合、纯音乐、独立的清唱人声或完全分离的音轨用于专业混音。

主要功能

完整歌曲生成：创建长达 4.5 分钟的完整歌曲，而不仅仅是 30 秒的片段
结构化歌词支持：使用 [verse]、[chorus] 和 [bridge] 等直观的部分标记来控制歌曲结构
灵活的风格控制：通过文本描述来指导输出，包括性别、音色、流派、情感、乐器和速度
音频提示：上传参考音频样本（前 10 秒）来影响生成的风格
多种输出模式：获得混合音轨、纯音乐、清唱人声或分离音轨
多语言能力：用英文、中文、西班牙文、日文等生成歌曲
专业级质量指标：在基准测试上达到 5.1% 的音素错误率，音乐性评分为 3.94/5

使用场景

对于音乐家和制作人

通过编写歌词并听到它们的表演来快速原型化歌曲创意。在全面制作之前测试不同的流派、速度和编排。使用分离音轨输出来提取 AI 生成的旋律或和声，用于您自己的编排。

对于内容创作者

为视频、播客和社交媒体内容生成原创背景音乐和铃声。创建品牌或频道的定制主题曲，无需昂贵的录音棚会话或许可费用。

对于游戏和应用开发者

制作针对特定情绪和场景量身定制的动态原创配乐。快速生成多个变体，找到完美适配您项目氛围的版本。

对于歌曲作者

立即听到您的歌词栩栩如生，以评估旋律和节奏。尝试不同的风格和编排，发现新的创意方向。

对于教育工作者和研究人员

创建定制教育歌曲或研究 AI 与音乐创作的交叉点。分析不同的歌词结构和风格提示如何影响生成的输出。

如何格式化您的输入

歌词结构

您的歌词应该遵循以下格式：

[intro-short]

[verse]
Streetlights flicker in the night
I wander through familiar corners
Memories rush in like a tide

[chorus]
The warmth of memories still remains
But you are gone
My heart was filled with love

[outro-short]

每个部分都以括号中的结构标签开始。[intro-short]、[inst-medium] 和 [outro-long] 等标签仅用于乐器——不需要歌词。[verse]、[chorus] 和 [bridge] 等标签需要歌词文本。

风格描述

使用自然语言描述来控制音乐输出：

female, dark, pop, sad, piano and drums, the bpm is 125

您可以指定性别、音色、流派、情感、乐器和速度的任何组合。该模型支持开放词汇，尽管预定义标签能提供更一致的效果。

使用参考音频

为了获得更精确的风格匹配，上传参考音频片段。该模型使用前 10 秒来学习流派、乐器配置、节奏和人声风格。专业提示：使用歌曲的副歌作为参考通常会产生最佳效果。

在 WaveSpeedAI 上入门

WaveSpeedAI 使您能够轻松开始立即生成歌曲：

访问 SongGeneration 模型页面
在输入字段中输入您的结构化歌词
添加可选的风格描述或上传参考音频
点击生成并接收您的完整歌曲

使用 WaveSpeedAI 的基础设施，您将受益于：

即时可用：没有冷启动意味着您的生成立即开始
快速推理：优化的基础设施快速提供结果
经济实惠的定价：只需支付您生成的内容，透明的按请求定价
简单的 REST API：将歌曲生成直接集成到您的应用程序和工作流中

技术规格

功能	规格
最大歌曲长度	4 分钟 30 秒
支持的语言	英文、中文、西班牙文、日文
输出格式	混合音轨、乐器、人声、分离音轨
输入方法	结构化歌词 + 文本描述或参考音频

总结

SongGeneration (LeVo) 代表了 AI 音乐生成的重大进步，使专业级的歌曲创作对任何有想法和一些歌词的人都触手可及。无论您是探索新声音的音乐家、需要原创音乐的内容创作者，还是正在构建下一代创意工具的开发者，这个模型都开启了新的可能性。

结构化歌词输入、灵活的风格控制和多音轨输出功能的结合使 SongGeneration 成为当今最多功能的文本转歌曲模型之一。借助 WaveSpeedAI 快速、可靠的推理基础设施，您可以在几秒内开始创作。

准备好听您的歌词栩栩如生了吗？立即在 WaveSpeedAI 上尝试 SongGeneration，体验 AI 驱动音乐创作的未来。