Ace Step 1.5现已登陆WaveSpeedAI
ACE-Step 1.5可根据文本生成最长4分钟的带歌词音乐,支持50余种语言,具备高保真音质,并可在消费级硬件上高效运行。
AI音乐创作的未来已经到来:ACE-Step 1.5
长久以来,音乐创作一直是受过专业训练的音乐人、昂贵录音棚和数小时繁琐制作的专属领域。今天,这一切将改变。我们很高兴宣布 ACE-Step 1.5 正式在 WaveSpeedAI 上线——这是一款 AI 音乐生成模型,能将简单的文字描述转化为完整歌曲,支持超过 50 种语言的人声与歌词。
无论你是需要定制背景音乐的内容创作者、正在构思灵感的词曲作者,还是开发音频驱动应用的开发者,ACE-Step 1.5 都能让你以极低的成本获得专业级音乐生成能力——每秒仅需几分之一美分。
什么是 ACE-Step 1.5?
ACE-Step 1.5 是一款文本转音频模型,通过两个简单的输入来生成音乐:描述曲风、情感和编曲的风格标签,以及可选的结构化歌词(用于引导人声表现)。该模型能生成长达四分钟的高保真音轨,支持从低保真环境器乐到带有主歌、副歌和桥段的完整流行歌曲等各种风格。
ACE-Step 1.5 的独特之处在于其质量、灵活性与成本的完美结合。该模型支持超过 50 种语言的歌词生成,能处理带有 [Verse]、[Chorus]、[Bridge] 等段落标记的复杂歌曲结构,且全程仅需 $0.0003/秒——这意味着一首完整的四分钟歌曲成本不足 $0.05。
核心功能
- 长达 4 分钟的音轨:可生成最长 240 秒的完整歌曲,足以完成包含多个段落和过渡的完整音乐作品。
- 基于标签的风格控制:使用逗号分隔的标签定义你的音乐风格,例如
steampunk, electro swing, jazz, piano, ticking clock或pop, female vocals, upbeat, guitar, 120bpm。可自由混搭曲风、乐器、情感和节拍。 - 结构化歌词支持:使用标准歌曲结构标记(
[Verse]、[Chorus]、[Bridge]、[Outro])编写歌词,模型将据此进行音乐编排。 - 50+ 语言支持:支持数十种语言的人声生成,非常适合全球内容创作和多语言项目。
- 纯器乐模式:将歌词字段留空,即可生成纯器乐音轨,完美适用于背景音乐和音景创作。
- 可复现的结果:使用种子值可重新生成完全相同的输出,确保多次迭代之间的一致性。
- 灵活的时长控制:精确设置所需音轨长度,从短促的广告曲到完整的音乐作品均可实现。
实际应用场景
内容创作与社交媒体
为 YouTube 视频、TikTok 内容、播客和 Instagram Reels 创作原创音乐,传统上意味着要么授权版权音乐,要么雇佣作曲家。ACE-Step 1.5 让创作者能够生成与内容情感和节奏完美契合的定制音轨。需要一段活泼的 30 秒片头曲?或者一段舒缓的两分钟教程背景音乐?用标签描述你的需求,几秒钟内即可获得原创音乐。
游戏与应用开发
游戏开发者和应用开发者可以生成动态原声、菜单音乐和环境音效,无需为版权问题烦恼。基于标签的系统使得跨场景或关卡创作主题统一的音乐变得轻而易举——地牢用暗黑环境音,Boss 战胜用凯旋交响乐,菜单界面用轻松吉他曲。
音乐制作与词曲创作
词曲作者和制作人可以将 ACE-Step 1.5 作为快速原型工具。写好歌词,用标签选定风格方向,片刻之后即可听到完整编曲。以近乎零成本反复打磨创意,再决定是否投入录音棚制作。每分钟生成音频不足两美分,试验成本几乎可以忽略不计。
批量音频生成
需要大量原创音乐的企业——媒体公司、广告代理机构、在线教育平台——可以经济高效地生成数百首独特音轨。以 API 为核心的接入方式,使音乐生成能够无缝集成到自动化内容生产流程中。
多语言与全球化项目
凭借对 50 多种语言的支持,ACE-Step 1.5 尤其适合跨市场、跨文化的项目。用英语、日语、西班牙语和韩语分别生成同一首歌的歌词版本——每个版本都能呈现自然流畅的人声表现。
在 WaveSpeedAI 上快速开始
在 WaveSpeedAI 上使用 ACE-Step 1.5 非常简单。你可以通过模型页面开始生成音乐,也可以通过 API 直接集成到你的应用中。
以下是使用 WaveSpeed Python SDK 的快速示例:
import wavespeed
output = wavespeed.run(
"wavespeed-ai/ace-step-1.5",
{
"tags": "pop, female vocals, upbeat, guitar, 120bpm",
"lyrics": "[Verse]\nWalking down the city streets at night\nNeon signs are painting everything in light\n\n[Chorus]\nWe're alive, we're alive tonight\nNothing's gonna stop us feeling right",
"duration": 120,
},
)
print(output["outputs"][0]) # 音频输出 URL
tags 参数是唯一必填字段。添加 lyrics 可生成有人声的音轨,设置 duration 可控制音轨长度(最长 240 秒),还可选择使用 seed 以获得可复现的结果。
以下几个小技巧有助于获得最佳效果:
- 标签尽量具体:标签描述越详细,输出越精准。结合曲风、乐器、情感和节拍标签,实现精细控制。
- 使用结构标记:带有
[Verse]、[Chorus]和[Bridge]标记的歌词,比无结构的纯文本能产生更具音乐性的编排。 - 先短后长:先用 30-60 秒的片段进行原型测试,找到合适的风格方向后,再生成完整音轨。
- 先试纯器乐:先不加歌词生成,评估音乐风格是否满意,再添加人声。
为什么选择 WaveSpeedAI?
在 WaveSpeedAI 上运行 ACE-Step 1.5,相比自托管方案具有多项优势:
- 无冷启动:请求即时处理——无需等待模型加载或 GPU 分配。
- 快速推理:经过优化的基础设施能快速交付生成音频,即使是完整的四分钟音轨也不例外。
- 实惠的定价:每秒生成音频仅需 $0.0003,即使大量使用也保持极低成本。
- 简洁的 API:清晰的 REST API 和 Python SDK,让你在几分钟内即可将音乐生成集成到任何工作流中。
- 无需硬件:省去配置 GPU 和管理模型权重的麻烦,只需发送请求即可获得音频。
立即开始创作音乐
ACE-Step 1.5 代表着音乐创作大众化进程中的真正一步。无论你需要一首定制音轨,还是数千首独特的音乐作品,其质量、灵活性与经济性的完美结合,都使其成为创作者和开发者不可多得的利器。
前往 ACE-Step 1.5 模型页面,立即开始生成音乐——无需任何配置,无需订阅。描述你的声音,写下你的歌词,剩下的交给模型来完成。



