WaveSpeedAI Heartmula Transcribe Lyrics现已登陆WaveSpeedAI

解锁每一句歌词：HeartMuLa Transcribe 为 WaveSpeedAI 带来 AI 驱动的歌词提取功能

音乐是一种通用语言，但理解其中的歌词一直是一大挑战。背景伴奏、人声和声、艺术化发音以及跨越各种流派的风格，使歌词提取成为音频 AI 领域最难解决的问题之一。标准的语音转文字模型专为清晰的口语对话而设计，在完整音乐曲目中通常只能识别 20–30% 的歌词。HeartMuLa Transcribe 彻底改变了这一局面。

现已在 WaveSpeedAI 上线，HeartMuLa Transcribe Lyrics 是一款专为歌词提取而构建的 AI 模型，其准确率是通用转录工具无法企及的。

什么是 HeartMuLa Transcribe？

HeartMuLa Transcribe 是 HeartMuLa 系列开源音乐基础模型的组成部分——这一研究项目打造了 2026 年最强大的 AI 音乐生态系统之一。HeartMuLa 的生成器能从文本创作出录音室品质的歌曲，而 HeartMuLa Transcribe 则解决了逆向问题：将演唱音频转换为可读文本。

在底层，HeartMuLa Transcribe 由 HeartTranscriptor 驱动——这是一个基于 Whisper 的模型，经过专门微调以识别复杂音乐信号中的歌词。不同于在人声叠加伴奏时举步维艰的通用语音转文字引擎，HeartTranscriptor 在高质量音乐音频数据集上进行了训练，使其能够在密集混音中隔离并解析人声内容。该模型真正理解演唱的独特特征——拉长的元音、音调变化、节奏性断句——而不是将其视为噪音。

该模型还支持多语言转录，可处理英语、中文、日语、韩语、西班牙语等多种语言的歌词。无论是韩流曲目、拉丁抒情歌曲，还是英语独立音乐，HeartMuLa Transcribe 都能提取歌词。

核心功能

针对音乐优化的转录

标准 ASR 模型专为语音设计。而演唱从根本上就不同——演唱中元音与辅音的比例可高达 200:1，而普通语音仅为 5:1，音高、时长和强度的表现也截然不同。HeartMuLa Transcribe 从零开始针对这一挑战而设计，即便是人声与乐器竞争的混音曲目，也能准确提取歌词。

零配置工作流

无需任何调参。上传音频文件，即可获得转录歌词——无需人声分离步骤，无需参数调整，无需预处理流程。模型在单次处理中完成人声分离与转录。

多语言支持

模型可转录多种语言的歌词，无需提前指定语言。它自动检测并转录人声内容，非常适合国际音乐库和多语言播放列表。

快速处理，每首仅需 $0.05

每次转录仅需 $0.05，无论是单次查询还是大规模批量处理，都极具经济性。结果在数秒内返回，而非数分钟。

广泛的音频格式支持

HeartMuLa Transcribe 支持多种音频格式和音乐风格——从录音室精制的流行音乐到原始现场录音。人声清晰突出的高质量源音频自然能获得最佳效果。

实际应用场景

音乐制作与剪辑

制作人和音频工程师可以转录人声录音，用于编辑、审听和文档记录。当你对一首曲目进行多次尝试并反复迭代时，即时获得每段人声表演的文字版本，能大幅加快审听流程。

字幕与说明文字

制作音乐 MV、歌词视频或社交媒体短片的内容创作者需要准确的歌词文本。HeartMuLa Transcribe 可生成原始文本，进一步格式化为带时间码的字幕或屏幕文字。

音乐编目与分析

音乐库、流媒体平台和版权管理系统可利用歌词提取来丰富元数据、驱动搜索功能，并实现大规模内容分析。以每首 $0.05 的价格处理数千首曲目，即便是大型音乐库也具备经济可行性。

卡拉 OK 与跟唱准备

从音频曲目中生成歌词文本，用于创建卡拉 OK 显示、跟唱指南或歌词单。结合时间数据，实现逐词同步高亮。

语言学习与转录

通过音乐学习新语言的学习者可以从歌曲中提取歌词，在语境中学习词汇、语法和发音——这远比教科书练习更具吸引力。

在 WaveSpeedAI 上快速上手

使用 WaveSpeed Python SDK，只需几行代码即可将 HeartMuLa Transcribe 集成到你的工作流中：

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/heartmula/transcribe-lyrics",
    {"audio": "https://example.com/your-song.mp3"},
)

print(output["outputs"][0])  # 转录歌词