MMAudio V2가 WaveSpeedAI에서 공개: 비디오 및 텍스트 입력을 위한 멀티모달 오디오 생성
WaveSpeedAI에서 MMAudio V2 출시: 비디오 및 텍스트 입력을 위한 멀티모달 오디오 생성
비디오와 텍스트 입력 모두에서 고품질의 동기화된 오디오를 생성하도록 설계된 최첨단 모델인 MMAudio V2가 출시되었습니다. 이 진전은 멀티미디어 콘텐츠 제작에서 새로운 가능성을 열어주며, 생성된 미디어의 현실성과 몰입감을 향상시킵니다
MMAudio V2란?
MMAudio V2는 시각적 콘텐츠 또는 텍스트 설명과 완벽하게 정렬되는 오디오를 합성할 수 있는 멀티모달 오디오 생성 모델입니다. 비디오에 현실적인 사운드 이펙트를 추가하거나 텍스트 프롬프트에서 오디오를 생성하려는 경우, MMAudio V2는 정밀도와 품질로 전달합니다.
주요 기능
- 멀티모달 입력 지원: 비디오와 텍스트 입력을 모두 허용하여 오디오 생성 작업에서 유연성을 제공합니다.
- 고품질 오디오 출력: 44.1kHz의 샘플링 레이트로 오디오를 생성하여 명확성과 세부 사항을 보장합니다.
- 동기화된 오디오-시각적 출력: 조건부 동기화 모듈을 활용하여 오디오를 비디오 프레임과 정확하게 정렬합니다.
- 효율적인 성능: 약 1.23초 만에 8초 오디오 클립을 생성하여 빠른 콘텐츠 제작을 촉진합니다.
- 컴팩트 모델 크기: 157만 개의 매개변수로 MMAudio V2는 품질 저하 없이 성능에 최적화되어 있습니다.
기술 개요
MMAudio V2는 혁신적인 멀티모달 공동 학습 프레임워크를 사용하여 대규모 텍스트-오디오 데이터를 비디오 입력과 통합하여 의미론적 정렬과 오디오-시각적 동기화를 향상시킵니다. 모델의 아키텍처에는 다음이 포함됩니다:
- 흐름 예측 네트워크: 입력 양식에 따라 조건화된 오디오 흐름을 예측합니다.
- 시각적 특징 추출기: Synchformer 및 CLIP 모델을 통합하여 의미 있는 시각적 특징을 추출합니다.
- 변분 자동 인코더(VAE): 오디오의 잠재 표현을 처리합니다.
- 보코더: 잠재 오디오 표현을 파형 출력으로 변환합니다.
이러한 구성 요소들은 조화롭게 작동하여 높은 품질일 뿐만 아니라 입력 데이터와 관련성 있는 오디오를 생성합니다.
응용 분야
MMAudio V2의 기능은 다양한 응용 분야에 적합합니다:
- 비디오 후반 제작: 무음 비디오에 현실적인 사운드스케이프를 추가하거나 기존 오디오 트랙을 향상시킵니다.
- 게임 개발: 게임 내 이벤트 또는 환경에 반응하는 몰입형 오디오 이펙트를 생성합니다.
- 가상 현실(VR) 및 증강 현실(AR): 사용자 상호 작용에 적응하는 동적 오디오 환경을 만듭니다.
- 콘텐츠 제작: 텍스트 스크립트에서 직접 팟캐스트, 오디오북 또는 기타 오디오 콘텐츠를 제작합니다.
시작하기
MMAudio V2의 기능을 살펴보려면 다음 WaveSpeedAI 모델 스토어를 방문하여 비디오 또는 텍스트 입력으로 MMAudio V2를 실험해보세요.

