MMAudio V2가 WaveSpeedAI에서 공개: 비디오 및 텍스트 입력을 위한 멀티모달 오디오 생성

MMAudio V2가 WaveSpeedAI에서 공개: 비디오 및 텍스트 입력을 위한 멀티모달 오디오 생성

WaveSpeedAI에서 MMAudio V2 출시: 비디오 및 텍스트 입력을 위한 멀티모달 오디오 생성

비디오와 텍스트 입력 모두에서 고품질의 동기화된 오디오를 생성하도록 설계된 최첨단 모델인 MMAudio V2가 출시되었습니다. 이 진전은 멀티미디어 콘텐츠 제작에서 새로운 가능성을 열어주며, 생성된 미디어의 현실성과 몰입감을 향상시킵니다

MMAudio V2란?

MMAudio V2는 시각적 콘텐츠 또는 텍스트 설명과 완벽하게 정렬되는 오디오를 합성할 수 있는 멀티모달 오디오 생성 모델입니다. 비디오에 현실적인 사운드 이펙트를 추가하거나 텍스트 프롬프트에서 오디오를 생성하려는 경우, MMAudio V2는 정밀도와 품질로 전달합니다.

주요 기능

  • 멀티모달 입력 지원: 비디오와 텍스트 입력을 모두 허용하여 오디오 생성 작업에서 유연성을 제공합니다.
  • 고품질 오디오 출력: 44.1kHz의 샘플링 레이트로 오디오를 생성하여 명확성과 세부 사항을 보장합니다.
  • 동기화된 오디오-시각적 출력: 조건부 동기화 모듈을 활용하여 오디오를 비디오 프레임과 정확하게 정렬합니다.
  • 효율적인 성능: 약 1.23초 만에 8초 오디오 클립을 생성하여 빠른 콘텐츠 제작을 촉진합니다.
  • 컴팩트 모델 크기: 157만 개의 매개변수로 MMAudio V2는 품질 저하 없이 성능에 최적화되어 있습니다.

기술 개요

MMAudio V2는 혁신적인 멀티모달 공동 학습 프레임워크를 사용하여 대규모 텍스트-오디오 데이터를 비디오 입력과 통합하여 의미론적 정렬과 오디오-시각적 동기화를 향상시킵니다. 모델의 아키텍처에는 다음이 포함됩니다:

  • 흐름 예측 네트워크: 입력 양식에 따라 조건화된 오디오 흐름을 예측합니다.
  • 시각적 특징 추출기: Synchformer 및 CLIP 모델을 통합하여 의미 있는 시각적 특징을 추출합니다.
  • 변분 자동 인코더(VAE): 오디오의 잠재 표현을 처리합니다.
  • 보코더: 잠재 오디오 표현을 파형 출력으로 변환합니다.

이러한 구성 요소들은 조화롭게 작동하여 높은 품질일 뿐만 아니라 입력 데이터와 관련성 있는 오디오를 생성합니다.

응용 분야

MMAudio V2의 기능은 다양한 응용 분야에 적합합니다:

  • 비디오 후반 제작: 무음 비디오에 현실적인 사운드스케이프를 추가하거나 기존 오디오 트랙을 향상시킵니다.
  • 게임 개발: 게임 내 이벤트 또는 환경에 반응하는 몰입형 오디오 이펙트를 생성합니다.
  • 가상 현실(VR) 및 증강 현실(AR): 사용자 상호 작용에 적응하는 동적 오디오 환경을 만듭니다.
  • 콘텐츠 제작: 텍스트 스크립트에서 직접 팟캐스트, 오디오북 또는 기타 오디오 콘텐츠를 제작합니다.

사례 연구

시작하기

MMAudio V2의 기능을 살펴보려면 다음 WaveSpeedAI 모델 스토어를 방문하여 비디오 또는 텍스트 입력으로 MMAudio V2를 실험해보세요.

Github연구 논문에서 MMAudio V2에 대해 자세히 알아보세요.