WaveSpeedAI Heartmula Transcribe Lyrics 現已登陸WaveSpeedAI
HeartMuLa Transcribe 使用先進的 AI 從音頻文件中提取歌詞,支持多語言轉錄,提供即用型 REST 推理 API,性能卓越。
解鎖每一句歌詞:HeartMuLa Transcribe 為 WaveSpeedAI 帶來 AI 驅動的歌詞提取功能
音樂是一種通用語言,但理解其中的文字向來是一大挑戰。背景樂器、人聲和聲、藝術化的發音方式,以及跨越各種曲風的演唱風格,使歌詞提取成為音訊 AI 領域最困難的問題之一。標準語音轉文字模型是為清晰的口語對話而設計的,通常只能識別完整音樂曲目中 20–30% 的歌詞。HeartMuLa Transcribe 徹底改變了這一局面。
現已在 WaveSpeedAI 上線,HeartMuLa Transcribe Lyrics 是一款專為音樂打造的 AI 模型,能以通用轉錄工具無法企及的準確度從音訊檔案中提取歌詞。
什麼是 HeartMuLa Transcribe?
HeartMuLa Transcribe 是 HeartMuLa 開源音樂基礎模型系列的一部分——這項研究計劃在 2026 年打造出功能最強大的 AI 音樂生態系統之一。HeartMuLa 的生成器能從文字創作出錄音室品質的歌曲,而 HeartMuLa Transcribe 則解決了反向問題:將演唱的音訊還原為可讀文字。
在底層技術上,HeartMuLa Transcribe 由 HeartTranscriptor 驅動,這是一個基於 Whisper 的模型,專門針對複雜音樂訊號中的歌詞識別進行了微調。與在人聲覆疊樂器伴奏時表現不佳的通用語音轉文字引擎不同,HeartTranscriptor 在高品質音樂音訊資料集上接受訓練,使其能夠在密集的混音中隔離並解讀人聲內容。最終成果是一個能理解演唱獨特特性的模型——延長的母音、音高變化、節奏感的措辭——而非將這些特性視為雜訊。
該模型還支援多語言轉錄,可處理英文、中文、日文、韓文、西班牙文等語言的歌詞。無論您正在處理 K-pop 曲目、拉丁情歌,還是英語獨立音樂,HeartMuLa Transcribe 都能提取歌詞。
主要功能
針對音樂優化的轉錄
標準 ASR 模型是為語音設計的。演唱與語音有根本上的不同——演唱中母音與子音的比例可達 200:1,而一般語音僅為 5:1,且音高、時值和強度的表現方式也截然不同。HeartMuLa Transcribe 從根本上就是為應對這項挑戰而設計的,即使在人聲與樂器競相出現的混音音軌中,也能準確提取歌詞。
零設定工作流程
無需任何調整。上傳音訊檔案即可獲得轉錄歌詞——無需人聲分離步驟、無需調整參數、無需預處理流程。模型在單一步驟中完成人聲分離和轉錄。
多語言支援
無需預先指定語言,模型即可轉錄多種語言的歌詞。它會自動偵測並轉錄人聲內容,非常適合用於國際音樂目錄和多語言播放清單。
每首曲目僅需 $0.05 的快速處理
每次轉錄費用僅需 $0.05,無論是單次查詢還是大規模批次處理都十分划算。結果在數秒內返回,無需等待數分鐘。
廣泛的音訊格式支援
HeartMuLa Transcribe 適用於各種音訊格式和音樂風格——從精心製作的流行樂到未經處理的現場錄音。人聲清晰的高品質原始音訊自然能產生最佳效果。
實際應用場景
音樂製作與剪輯
製作人和音訊工程師可以轉錄人聲錄音,用於剪輯、審閱和存檔。當您需要在包含多個 take 的曲目上反覆迭代時,即時獲取每次人聲表演的文字版本能大幅加快審閱流程。
字幕與說明文字
製作音樂影片、歌詞影片或社群媒體短片的內容創作者需要準確的歌詞文字版本。HeartMuLa Transcribe 生成的原始文字可被格式化為有時間軸的字幕或螢幕說明文字。
音樂目錄管理與分析
音樂資料庫、串流平台和版權管理系統可利用歌詞提取來豐富後設資料、強化搜尋功能,並實現大規模內容分析。以每首 $0.05 的成本處理數千首曲目,即使對大型目錄而言也具備經濟可行性。
卡拉 OK 與跟唱準備
從音訊曲目生成歌詞文字,用於製作卡拉 OK 字幕、跟唱指南或歌詞手冊。搭配時間資料即可實現同步文字高亮顯示。
語言學習與轉錄
透過音樂學習新語言的學生可以從歌曲中提取歌詞,在情境中學習詞彙、文法和發音——這比教科書練習更具吸引力。
在 WaveSpeedAI 上快速開始
只需透過 WaveSpeed Python SDK 撰寫幾行程式碼,即可將 HeartMuLa Transcribe 整合到您的工作流程中:
import wavespeed
output = wavespeed.run(
"wavespeed-ai/heartmula/transcribe-lyrics",
{"audio": "https://example.com/your-song.mp3"},
)
print(output["outputs"][0]) # 轉錄的歌詞
快速入門指南
- 註冊wavespeed.ai 並取得您的 API 金鑰
- 安裝 SDK,執行
pip install wavespeed - 提交音訊 URL——提供指向音訊檔案的公開可存取連結
- 獲取歌詞——API 返回包含完整轉錄文字的 JSON 物件
專業使用技巧
- 使用人聲清晰、突出的高品質音訊檔案以獲得最佳轉錄準確度
- 人聲高於樂器伴奏的曲目將產生最可靠的結果
- 將 HeartMuLa Transcribe 與 HeartMuLa Generate Music 搭配使用,即可創作歌曲並驗證生成的歌詞是否與您的輸入相符
為何選擇 WaveSpeedAI?
- 無冷啟動——HeartMuLa Transcribe 始終保持熱機狀態,隨時準備即時處理您的請求
- 實惠定價——每次轉錄僅需 $0.05,無隱藏費用或最低消費限制
- 簡單的 REST API——單一端點、單一參數、即時結果
- 可擴展的基礎設施——無論是處理單首曲目還是批次轉錄整個音樂資料庫皆可應對
- 生態系統整合——可與其他 WaveSpeedAI 模型搭配使用,包括 HeartMuLa 的音樂生成模型,實現完整的音訊 AI 工作流程
結語
歌詞提取長期以來是 AI 音訊工具箱中的一項空白。通用語音模型並非為音樂而設計,而手動轉錄則無法規模化。HeartMuLa Transcribe 以一款專為音樂優化的轉錄模型填補了這一空白,它快速、實惠,且能跨語言和曲風準確運作。
無論您是正在審閱人聲 take 的音樂製作人、製作歌詞影片的內容創作者,還是為音樂目錄豐富可搜尋文字的平台,WaveSpeedAI 上的 HeartMuLa Transcribe 都能為您提供大規模完成這一切的工具。





