← 博客

WaveSpeedAI Heartmula Generate Music现已登陆WaveSpeedAI

HeartMuLa 是一款顶尖的音乐生成模型,可根据歌词和风格标签创作高质量歌曲。提供开箱即用的 REST 推理 API,性价比最优。

2 min read
Wavespeed Ai Heartmula Generate Music
Wavespeed Ai Heartmula Generate Music HeartMuLa 是一款顶尖的音乐生成模型,可根据歌词和风格标签创作高质量歌曲。提供开箱即用的 REST 推理 API...
Try it
WaveSpeedAI Heartmula Generate Music现已登陆WaveSpeedAI

HeartMuLa 现已登陆 WaveSpeedAI:用 AI 将你的歌词变成完整歌曲

长久以来,创作原创音乐一直是最耗时的创意工作之一——直到现在。WaveSpeedAI 很高兴地宣布 HeartMuLa 正式上线,这是一款顶尖的开源音乐基础模型,能够根据你的歌词和风格标签生成高质量的完整歌曲。无论你是正在验证创意的词曲作者、寻找定制配乐的内容创作者,还是开发下一款音乐应用的开发者,HeartMuLa 都能通过简单的 API 调用实现专业级音乐制作。

什么是 HeartMuLa?

HeartMuLa 是一系列开源音乐基础模型,建立在精妙的四组件架构之上:用于音频-文本对齐的 HeartCLAP、用于歌词识别的 HeartTranscriptor、用于高保真音乐分词的 HeartCodec,以及负责歌曲生成的 HeartMuLa 语言模型本身。这些组件协同工作,仅凭结构化歌词和少量风格标签,即可生成包含人声、旋律、和声及完整乐器编排的完整歌曲。

HeartMuLa 的突出之处在于其歌词清晰度。在基准测试中,HeartMuLa 在所有测试语言中均实现了最低的音素错误率(PER),超越了包括 Suno v5 和 MiniMax Music 2.0 在内的顶级商业模型。在英语中,HeartMuLa 的 PER 仅为 0.09,中文则达到 0.12——这意味着你写下的每一个字都能在最终歌曲中清晰呈现。该模型还通过直接偏好优化(DPO)进行了进一步精调,这是一种强化学习技术,可确保对风格、标签和整体音乐质量的精准控制。

这是首次有商业级音乐生成系统在学术规模上被复现,并以 Apache 2.0 许可证作为开源发布——现在它已在 WaveSpeedAI 上线,无需任何配置即可使用。

核心功能

  • 完整歌曲生成:生成包含人声、器乐、前奏、过渡段和尾奏的完整歌曲——而非单纯的循环片段或短片段
  • 多语言歌词:支持英语、中文、日语、韩语和西班牙语,非常适合面向全球受众的创作者
  • 结构化歌曲编排:使用 [Verse][Chorus][Bridge][intro-short][outro-medium] 等段落标记,精确控制歌曲的编排和走向
  • 灵活的风格控制:通过简单的逗号分隔标签定义曲风、情绪、节奏、乐器和人声特征,例如 "r&b, smooth, male vocals, soulful, 85bpm"
  • 器乐段落:通过可配置的时长标记添加前奏、尾奏和器乐间奏——这些段落无需歌词
  • 业界领先的歌词清晰度:在所有测试语言中音素错误率最低,确保歌词按原文演唱

实际应用场景

原创音乐创作

词曲作者和音乐人可以即时将歌词变为现实。写好主歌和副歌,选择一种风格,数秒内即可听到完整制作版本。这是从灵感到 Demo 最快捷的路径。

内容配乐

视频创作者、播客主和社交媒体内容生产者可以生成完美契合内容的定制背景音乐。无需在通用免版税音乐库中反复筛选,为每个项目创作独一无二的音乐。

多语言内容制作

服务国际受众的品牌和创作者可以通过单一模型制作五种语言的歌曲。通过同一 API,发起一场营销活动,配有日语流行曲、西班牙语抒情曲和英语主题曲——全部一键生成。

Demo 制作与词曲辅助

专业词曲作者可将 HeartMuLa 用作快速原型工具。在投入昂贵的录音室录制之前,先测试歌词在不同曲风和节奏下的效果。通过重新排列段落标记并在数秒内重新生成,轻松尝试不同编排方案。

游戏与应用开发

游戏开发者可以创作与游戏叙事相匹配的原创主题曲、菜单音乐和游戏内配乐。应用开发者可通过 WaveSpeedAI API 将音乐生成功能直接集成到产品中。

在 WaveSpeedAI 上快速上手

使用 HeartMuLa 在 WaveSpeedAI 上生成音乐非常简单。你只需要歌词——其他一切都是可选的。

使用 API

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/heartmula/generate-music",
    {
        "lyrics": """[intro-short]
[Verse]
Your voice like velvet, I'm never alone
The way you say my name, it pulls me in
A love like ours is more than skin
[Chorus]
Stay with me until the morning light
Hold me close and never let me go
[outro-short]""",
        "tags": "r&b, smooth, male vocals, soulful, slow jam, romantic, 85bpm"
    },
)

print(output["outputs"][0])

歌词创作技巧

使用段落标记来结构化你的歌词,以获得最佳效果:

  • [Verse][Chorus][Bridge] — 需要歌词的人声段落
  • [intro-short][intro-medium] — 器乐前奏(0–10 秒或 10–20 秒)
  • [inst-short][inst-medium] — 段落之间的器乐间奏
  • [outro-short][outro-medium] — 器乐尾奏

定义你的风格

组合标签,精确描述你想要的音乐风格:

  • "female, bright, pop, happy, piano, 130bpm" — 活力流行主题曲
  • "male, dark, rock, guitar, drums, energetic" — 充满力量的摇滚曲目
  • "piano, happy, wedding, synthesizer, romantic" — 浪漫婚礼歌曲
  • "jazz, smooth, saxophone, soft, 90bpm" — 深夜爵士氛围

使用技巧:

  • 保持歌词结构清晰,搭配明确的段落标记,以获得最佳编排效果
  • 组合多个风格标签以获得更精确的结果——曲风、情绪、乐器、节奏和人声特征均可协同生效
  • 在人声段落之间使用 [inst-short][inst-medium],为歌曲留出喘息空间
  • 设置固定的种子值,在找到满意的生成结果后可重现完全相同的效果

为何选择 WaveSpeedAI?

在 WaveSpeedAI 上运行 HeartMuLa,兼顾开源模型与商业级基础设施的双重优势:

  • 无冷启动:音乐生成即时开始,无需等待实例启动
  • 快速推理:优化的基础设施快速交付完整歌曲,让你可以自由迭代和实验
  • 实惠定价:每首歌仅需 $0.10——远低于订阅制音乐生成平台的收费
  • 简洁的 REST API:通过简单直观的 API 将 AI 音乐生成集成到你的应用中,无需 ML 专业知识或 GPU 管理经验

立即开始创作你的音乐

HeartMuLa 是 AI 音乐生成领域的一个里程碑:一款开源模型,在质量上比肩商业产品,在歌词清晰度上更胜一筹,同时支持真正的多语言歌曲创作。结合 WaveSpeedAI 快速、可靠的基础设施,这是将你的文字转化为音乐最便捷的方式。

无论你是在为影片配乐、打磨热门单曲、制作内容配乐,还是构建音乐应用,WaveSpeedAI 上的 HeartMuLa 都能以亲民的价格交付专业成果,为每一位创作者打开无限可能。

准备好让你的歌词焕发生命了吗? 立即在 WaveSpeedAI 上试用 HeartMuLa,开始用你的文字生成完整歌曲。