← 部落格

WaveSpeedAI Heartmula Transcribe Lyrics 現已登陸WaveSpeedAI

HeartMuLa Transcribe 使用先進的 AI 從音頻文件中提取歌詞,支持多語言轉錄,提供即用型 REST 推理 API,性能卓越。

2 min read
Wavespeed Ai Heartmula Transcribe Lyrics
Wavespeed Ai Heartmula Transcribe Lyrics HeartMuLa Transcribe 使用先進的 AI 從音頻文件中提取歌詞,支持多語言轉錄,提供即用型 REST ...
Try it
WaveSpeedAI Heartmula Transcribe Lyrics 現已登陸WaveSpeedAI

解鎖每一句歌詞:HeartMuLa Transcribe 為 WaveSpeedAI 帶來 AI 驅動的歌詞提取功能

音樂是一種通用語言,但理解其中的文字向來是一大挑戰。背景樂器、人聲和聲、藝術化的發音方式,以及跨越各種曲風的演唱風格,使歌詞提取成為音訊 AI 領域最困難的問題之一。標準語音轉文字模型是為清晰的口語對話而設計的,通常只能識別完整音樂曲目中 20–30% 的歌詞。HeartMuLa Transcribe 徹底改變了這一局面。

現已在 WaveSpeedAI 上線,HeartMuLa Transcribe Lyrics 是一款專為音樂打造的 AI 模型,能以通用轉錄工具無法企及的準確度從音訊檔案中提取歌詞。

什麼是 HeartMuLa Transcribe?

HeartMuLa Transcribe 是 HeartMuLa 開源音樂基礎模型系列的一部分——這項研究計劃在 2026 年打造出功能最強大的 AI 音樂生態系統之一。HeartMuLa 的生成器能從文字創作出錄音室品質的歌曲,而 HeartMuLa Transcribe 則解決了反向問題:將演唱的音訊還原為可讀文字。

在底層技術上,HeartMuLa Transcribe 由 HeartTranscriptor 驅動,這是一個基於 Whisper 的模型,專門針對複雜音樂訊號中的歌詞識別進行了微調。與在人聲覆疊樂器伴奏時表現不佳的通用語音轉文字引擎不同,HeartTranscriptor 在高品質音樂音訊資料集上接受訓練,使其能夠在密集的混音中隔離並解讀人聲內容。最終成果是一個能理解演唱獨特特性的模型——延長的母音、音高變化、節奏感的措辭——而非將這些特性視為雜訊。

該模型還支援多語言轉錄,可處理英文、中文、日文、韓文、西班牙文等語言的歌詞。無論您正在處理 K-pop 曲目、拉丁情歌,還是英語獨立音樂,HeartMuLa Transcribe 都能提取歌詞。

主要功能

針對音樂優化的轉錄

標準 ASR 模型是為語音設計的。演唱與語音有根本上的不同——演唱中母音與子音的比例可達 200:1,而一般語音僅為 5:1,且音高、時值和強度的表現方式也截然不同。HeartMuLa Transcribe 從根本上就是為應對這項挑戰而設計的,即使在人聲與樂器競相出現的混音音軌中,也能準確提取歌詞。

零設定工作流程

無需任何調整。上傳音訊檔案即可獲得轉錄歌詞——無需人聲分離步驟、無需調整參數、無需預處理流程。模型在單一步驟中完成人聲分離和轉錄。

多語言支援

無需預先指定語言,模型即可轉錄多種語言的歌詞。它會自動偵測並轉錄人聲內容,非常適合用於國際音樂目錄和多語言播放清單。

每首曲目僅需 $0.05 的快速處理

每次轉錄費用僅需 $0.05,無論是單次查詢還是大規模批次處理都十分划算。結果在數秒內返回,無需等待數分鐘。

廣泛的音訊格式支援

HeartMuLa Transcribe 適用於各種音訊格式和音樂風格——從精心製作的流行樂到未經處理的現場錄音。人聲清晰的高品質原始音訊自然能產生最佳效果。

實際應用場景

音樂製作與剪輯

製作人和音訊工程師可以轉錄人聲錄音,用於剪輯、審閱和存檔。當您需要在包含多個 take 的曲目上反覆迭代時,即時獲取每次人聲表演的文字版本能大幅加快審閱流程。

字幕與說明文字

製作音樂影片、歌詞影片或社群媒體短片的內容創作者需要準確的歌詞文字版本。HeartMuLa Transcribe 生成的原始文字可被格式化為有時間軸的字幕或螢幕說明文字。

音樂目錄管理與分析

音樂資料庫、串流平台和版權管理系統可利用歌詞提取來豐富後設資料、強化搜尋功能,並實現大規模內容分析。以每首 $0.05 的成本處理數千首曲目,即使對大型目錄而言也具備經濟可行性。

卡拉 OK 與跟唱準備

從音訊曲目生成歌詞文字,用於製作卡拉 OK 字幕、跟唱指南或歌詞手冊。搭配時間資料即可實現同步文字高亮顯示。

語言學習與轉錄

透過音樂學習新語言的學生可以從歌曲中提取歌詞,在情境中學習詞彙、文法和發音——這比教科書練習更具吸引力。

在 WaveSpeedAI 上快速開始

只需透過 WaveSpeed Python SDK 撰寫幾行程式碼,即可將 HeartMuLa Transcribe 整合到您的工作流程中:

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/heartmula/transcribe-lyrics",
    {"audio": "https://example.com/your-song.mp3"},
)

print(output["outputs"][0])  # 轉錄的歌詞

快速入門指南

  1. 註冊wavespeed.ai 並取得您的 API 金鑰
  2. 安裝 SDK,執行 pip install wavespeed
  3. 提交音訊 URL——提供指向音訊檔案的公開可存取連結
  4. 獲取歌詞——API 返回包含完整轉錄文字的 JSON 物件

專業使用技巧

  • 使用人聲清晰、突出的高品質音訊檔案以獲得最佳轉錄準確度
  • 人聲高於樂器伴奏的曲目將產生最可靠的結果
  • 將 HeartMuLa Transcribe 與 HeartMuLa Generate Music 搭配使用,即可創作歌曲並驗證生成的歌詞是否與您的輸入相符

為何選擇 WaveSpeedAI?

  • 無冷啟動——HeartMuLa Transcribe 始終保持熱機狀態,隨時準備即時處理您的請求
  • 實惠定價——每次轉錄僅需 $0.05,無隱藏費用或最低消費限制
  • 簡單的 REST API——單一端點、單一參數、即時結果
  • 可擴展的基礎設施——無論是處理單首曲目還是批次轉錄整個音樂資料庫皆可應對
  • 生態系統整合——可與其他 WaveSpeedAI 模型搭配使用,包括 HeartMuLa 的音樂生成模型,實現完整的音訊 AI 工作流程

結語

歌詞提取長期以來是 AI 音訊工具箱中的一項空白。通用語音模型並非為音樂而設計,而手動轉錄則無法規模化。HeartMuLa Transcribe 以一款專為音樂優化的轉錄模型填補了這一空白,它快速、實惠,且能跨語言和曲風準確運作。

無論您是正在審閱人聲 take 的音樂製作人、製作歌詞影片的內容創作者,還是為音樂目錄豐富可搜尋文字的平台,WaveSpeedAI 上的 HeartMuLa Transcribe 都能為您提供大規模完成這一切的工具。

立即在 WaveSpeedAI 上試用 HeartMuLa Transcribe Lyrics →