WaveSpeedAI Heartmula Transcribe Lyrics 現已登陸WaveSpeedAI

解鎖每一句歌詞：HeartMuLa Transcribe 為 WaveSpeedAI 帶來 AI 驅動的歌詞提取功能

音樂是一種通用語言，但理解其中的文字向來是一大挑戰。背景樂器、人聲和聲、藝術化的發音方式，以及跨越各種曲風的演唱風格，使歌詞提取成為音訊 AI 領域最困難的問題之一。標準語音轉文字模型是為清晰的口語對話而設計的，通常只能識別完整音樂曲目中 20–30% 的歌詞。HeartMuLa Transcribe 徹底改變了這一局面。

現已在 WaveSpeedAI 上線，HeartMuLa Transcribe Lyrics 是一款專為音樂打造的 AI 模型，能以通用轉錄工具無法企及的準確度從音訊檔案中提取歌詞。

什麼是 HeartMuLa Transcribe？

HeartMuLa Transcribe 是 HeartMuLa 開源音樂基礎模型系列的一部分——這項研究計劃在 2026 年打造出功能最強大的 AI 音樂生態系統之一。HeartMuLa 的生成器能從文字創作出錄音室品質的歌曲，而 HeartMuLa Transcribe 則解決了反向問題：將演唱的音訊還原為可讀文字。

在底層技術上，HeartMuLa Transcribe 由 HeartTranscriptor 驅動，這是一個基於 Whisper 的模型，專門針對複雜音樂訊號中的歌詞識別進行了微調。與在人聲覆疊樂器伴奏時表現不佳的通用語音轉文字引擎不同，HeartTranscriptor 在高品質音樂音訊資料集上接受訓練，使其能夠在密集的混音中隔離並解讀人聲內容。最終成果是一個能理解演唱獨特特性的模型——延長的母音、音高變化、節奏感的措辭——而非將這些特性視為雜訊。

該模型還支援多語言轉錄，可處理英文、中文、日文、韓文、西班牙文等語言的歌詞。無論您正在處理 K-pop 曲目、拉丁情歌，還是英語獨立音樂，HeartMuLa Transcribe 都能提取歌詞。

主要功能

針對音樂優化的轉錄

標準 ASR 模型是為語音設計的。演唱與語音有根本上的不同——演唱中母音與子音的比例可達 200:1，而一般語音僅為 5:1，且音高、時值和強度的表現方式也截然不同。HeartMuLa Transcribe 從根本上就是為應對這項挑戰而設計的，即使在人聲與樂器競相出現的混音音軌中，也能準確提取歌詞。

零設定工作流程

無需任何調整。上傳音訊檔案即可獲得轉錄歌詞——無需人聲分離步驟、無需調整參數、無需預處理流程。模型在單一步驟中完成人聲分離和轉錄。

多語言支援

無需預先指定語言，模型即可轉錄多種語言的歌詞。它會自動偵測並轉錄人聲內容，非常適合用於國際音樂目錄和多語言播放清單。

每首曲目僅需 $0.05 的快速處理

每次轉錄費用僅需 $0.05，無論是單次查詢還是大規模批次處理都十分划算。結果在數秒內返回，無需等待數分鐘。

廣泛的音訊格式支援

HeartMuLa Transcribe 適用於各種音訊格式和音樂風格——從精心製作的流行樂到未經處理的現場錄音。人聲清晰的高品質原始音訊自然能產生最佳效果。

實際應用場景

音樂製作與剪輯

製作人和音訊工程師可以轉錄人聲錄音，用於剪輯、審閱和存檔。當您需要在包含多個 take 的曲目上反覆迭代時，即時獲取每次人聲表演的文字版本能大幅加快審閱流程。

字幕與說明文字

製作音樂影片、歌詞影片或社群媒體短片的內容創作者需要準確的歌詞文字版本。HeartMuLa Transcribe 生成的原始文字可被格式化為有時間軸的字幕或螢幕說明文字。

音樂目錄管理與分析

音樂資料庫、串流平台和版權管理系統可利用歌詞提取來豐富後設資料、強化搜尋功能，並實現大規模內容分析。以每首 $0.05 的成本處理數千首曲目，即使對大型目錄而言也具備經濟可行性。

卡拉 OK 與跟唱準備

從音訊曲目生成歌詞文字，用於製作卡拉 OK 字幕、跟唱指南或歌詞手冊。搭配時間資料即可實現同步文字高亮顯示。

語言學習與轉錄

透過音樂學習新語言的學生可以從歌曲中提取歌詞，在情境中學習詞彙、文法和發音——這比教科書練習更具吸引力。

在 WaveSpeedAI 上快速開始

只需透過 WaveSpeed Python SDK 撰寫幾行程式碼，即可將 HeartMuLa Transcribe 整合到您的工作流程中：

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/heartmula/transcribe-lyrics",
    {"audio": "https://example.com/your-song.mp3"},
)

print(output["outputs"][0])  # 轉錄的歌詞