WaveSpeedAI Heartmula Transcribe Lyrics, WaveSpeedAI에 출시
HeartMuLa Transcribe는 고급 AI를 사용하여 오디오 파일에서 가사를 추출합니다. 다국어 전사를 지원하며, 최고의 성능을 갖춘 바로 사용 가능한 REST 추론 API를 제공합니다.
모든 가사를 완벽하게: HeartMuLa Transcribe, WaveSpeedAI에 AI 기반 가사 추출 기능 출시
음악은 보편적인 언어이지만, 그 안에 담긴 가사를 이해하는 것은 언제나 어려운 과제였습니다. 배경 반주, 보컬 하모니, 예술적인 발음, 장르를 아우르는 다양한 스타일은 가사 추출을 오디오 AI에서 가장 어려운 문제 중 하나로 만들고 있습니다. 일반적인 음성-텍스트 변환 모델은 대화 형식의 명확한 음성을 위해 만들어진 만큼, 전체 음악 트랙에서 가사를 20~30%밖에 인식하지 못하는 경우가 많습니다. HeartMuLa Transcribe는 이러한 상황을 완전히 바꿉니다.
이제 WaveSpeedAI에서 이용할 수 있는 HeartMuLa Transcribe Lyrics는 범용 전사 도구로는 도저히 달성할 수 없는 정확도로 오디오 파일에서 가사를 추출하는 전용 AI 모델입니다.
HeartMuLa Transcribe란?
HeartMuLa Transcribe는 2026년 가장 뛰어난 AI 음악 에코시스템을 만들어낸 연구 이니셔티브인 HeartMuLa 오픈소스 음악 파운데이션 모델 패밀리의 일부입니다. HeartMuLa의 생성 모델이 텍스트로 스튜디오 품질의 곡을 만들어낸다면, HeartMuLa Transcribe는 그 역방향 문제를 해결합니다. 즉, 노래로 부른 오디오를 읽을 수 있는 텍스트로 변환하는 것입니다.
내부적으로 HeartMuLa Transcribe는 복잡한 음악 신호에서의 가사 인식을 위해 특별히 파인튜닝된 Whisper 기반 모델인 HeartTranscriptor로 구동됩니다. 보컬이 반주 위에 겹쳐질 때 어려움을 겪는 범용 음성-텍스트 엔진과 달리, HeartTranscriptor는 고품질 음악 오디오 데이터셋으로 학습되어 밀도 높은 믹스에서도 보컬 콘텐츠를 분리하고 해석하는 능력을 갖추고 있습니다. 그 결과, 이 모델은 노래의 고유한 특성인 늘어지는 모음, 음정 변화, 리듬감 있는 프레이징을 소음으로 처리하는 대신 정확히 이해합니다.
또한 이 모델은 다국어 전사를 지원하여 영어, 중국어, 일본어, 한국어, 스페인어 등 다양한 언어의 가사를 처리합니다. K-팝 트랙이든, 라틴 발라드이든, 영어 인디 음악이든 HeartMuLa Transcribe가 가사를 추출해 드립니다.
주요 기능
음악에 최적화된 전사
일반 ASR 모델은 음성을 위해 만들어졌습니다. 노래는 근본적으로 다릅니다. 노래에서 모음 대 자음의 비율은 200:1에 달할 수 있는데, 일반 대화에서는 5:1에 불과합니다. 음정, 지속 시간, 강도 모두 다르게 작용합니다. HeartMuLa Transcribe는 처음부터 이러한 과제를 위해 설계되어, 보컬이 악기와 경쟁하는 혼합 오디오 트랙에서도 정확한 가사를 제공합니다.
설정 없는 워크플로
조정할 것이 없습니다. 오디오 파일을 업로드하면 전사된 가사가 바로 반환됩니다. 보컬 분리 단계도, 파라미터 조정도, 전처리 파이프라인도 필요 없습니다. 모델이 보컬 분리와 전사를 단일 패스로 처리합니다.
다국어 지원
이 모델은 언어를 미리 지정할 필요 없이 여러 언어로 된 가사를 전사합니다. 보컬 콘텐츠를 자동으로 감지하고 전사하므로, 국제 음악 카탈로그와 다국어 플레이리스트에 이상적입니다.
트랙당 $0.05의 빠른 처리
각 전사 비용은 단 $0.05로, 일회성 조회와 대규모 배치 처리 모두에 실용적입니다. 결과는 몇 분이 아닌 몇 초 만에 반환됩니다.
폭넓은 오디오 포맷 지원
HeartMuLa Transcribe는 스튜디오에서 다듬어진 팝부터 날것의 라이브 녹음까지 다양한 오디오 포맷과 음악 스타일에서 작동합니다. 보컬이 선명한 고품질 소스 오디오일수록 자연스럽게 더 좋은 결과를 얻을 수 있습니다.
실제 활용 사례
음악 프로덕션 및 편집
프로듀서와 오디오 엔지니어는 편집, 검토, 문서화를 위해 보컬 녹음을 전사할 수 있습니다. 여러 테이크가 있는 트랙을 반복 작업할 때, 각 보컬 퍼포먼스의 즉각적인 텍스트 버전을 확보하면 검토 과정이 획기적으로 빨라집니다.
자막 및 캡션
뮤직비디오, 가사 영상, 소셜 미디어 클립을 제작하는 콘텐츠 크리에이터는 노래 가사의 정확한 텍스트 버전이 필요합니다. HeartMuLa Transcribe는 타임드 자막이나 화면 캡션으로 포맷할 수 있는 원시 텍스트를 생성합니다.
음악 카탈로그 및 분석
음악 라이브러리, 스트리밍 플랫폼, 저작권 관리 시스템은 가사 추출을 통해 메타데이터를 풍부하게 하고, 검색 기능을 강화하며, 대규모 콘텐츠 분석을 가능하게 할 수 있습니다. 트랙당 $0.05로 수천 곡을 처리하면 대규모 카탈로그에서도 경제적으로 실행 가능합니다.
노래방 및 따라 부르기 준비
오디오 트랙에서 가사 텍스트를 생성하여 노래방 디스플레이, 따라 부르기 가이드, 가사지를 만드세요. 타이밍 데이터와 결합하면 가사 단어 동기화 하이라이팅도 구현할 수 있습니다.
언어 학습 및 전사
음악을 통해 새로운 언어를 배우는 학생들은 노래의 가사를 추출하여 문맥 속에서 어휘, 문법, 발음을 공부할 수 있습니다. 교과서 연습보다 훨씬 더 몰입감 있는 학습 방법입니다.
WaveSpeedAI에서 시작하기
WaveSpeed Python SDK를 사용하면 단 몇 줄의 코드로 HeartMuLa Transcribe를 워크플로에 통합할 수 있습니다.
import wavespeed
output = wavespeed.run(
"wavespeed-ai/heartmula/transcribe-lyrics",
{"audio": "https://example.com/your-song.mp3"},
)
print(output["outputs"][0]) # 전사된 가사
빠른 시작 가이드
- wavespeed.ai에서 회원가입하고 API 키를 발급받으세요
pip install wavespeed으로 SDK를 설치하세요- 오디오 URL을 제출하세요 — 오디오 파일에 공개적으로 접근 가능한 링크를 제공하세요
- 가사를 받으세요 — API가 전체 전사 텍스트가 담긴 JSON 객체를 반환합니다
활용 팁
- 최상의 전사 정확도를 위해 보컬이 선명하게 들리는 고품질 오디오 파일을 사용하세요
- 보컬이 반주 위에 명확하게 위치한 트랙에서 가장 신뢰할 수 있는 결과가 나옵니다
- HeartMuLa Generate Music과 HeartMuLa Transcribe를 함께 사용하여 곡을 생성한 후 생성된 가사가 입력값과 일치하는지 확인하세요
WaveSpeedAI를 선택해야 하는 이유
- 콜드 스타트 없음 — HeartMuLa Transcribe는 항상 워밍업된 상태로 요청을 즉시 처리할 준비가 되어 있습니다
- 합리적인 가격 — 숨겨진 수수료나 최소 약정 없이 전사당 $0.05
- 간단한 REST API — 하나의 엔드포인트, 하나의 파라미터, 즉각적인 결과
- 확장 가능한 인프라 — 단일 트랙 처리부터 전체 음악 라이브러리 배치 전사까지
- 에코시스템 통합 — 완전한 오디오 AI 워크플로를 위해 HeartMuLa의 음악 생성 모델을 포함한 다른 WaveSpeedAI 모델과 함께 사용하세요
결론
가사 추출은 오랫동안 AI 오디오 툴킷의 빈자리로 남아 있었습니다. 범용 음성 모델은 음악을 위해 만들어지지 않았고, 수작업 전사는 확장이 불가능합니다. HeartMuLa Transcribe는 빠르고, 저렴하며, 다양한 언어와 장르에서 정확한 전용 음악 최적화 전사 모델로 그 공백을 메웁니다.
보컬 테이크를 검토하는 음악 프로듀서이든, 가사 영상을 만드는 콘텐츠 크리에이터이든, 음악 카탈로그에 검색 가능한 텍스트를 추가하려는 플랫폼이든, WaveSpeedAI의 HeartMuLa Transcribe는 이 작업을 대규모로 수행할 수 있는 도구를 제공합니다.





