← 블로그

daVinci-MagiHuman: 모든 디지털 휴먼 생성기를 압도한 오픈소스 모델

daVinci-MagiHuman은 단일 H100에서 2초 만에 립싱크 토킹 헤드 영상을 생성하는 150억 파라미터 오픈소스 모델입니다. Ovi 1.1(승률 80%)과 LTX 2.3(60.9%)을 능가하며, Apache 2.0 라이선스, 다국어 지원, 초고속 처리를 자랑합니다.

4 min read
daVinci-MagiHuman: 모든 디지털 휴먼 생성기를 압도한 오픈소스 모델

daVinci-MagiHuman: 오픈소스, 150억 파라미터, 그리고 모든 클로즈드 모델을 능가하다

디지털 휴먼 시장이 뒤흔들렸습니다 — 이번에는 오픈소스가 그 주인공입니다. daVinci-MagiHuman은 Sand.ai와 SII GAIR Lab이 공동 개발한 150억 파라미터 모델로, 단일 H100 GPU에서 2초 만에 동기화된 오디오가 포함된 립싱크 토킹 헤드 영상을 생성합니다. 그리고 Apache 2.0 라이선스 하에 완전한 오픈소스로 공개되었습니다.

인간 평가에서 Ovi 1.1 대비 80%, LTX 2.3 대비 60.9% 의 비교 승률을 기록했습니다 — 해당 카테고리에서 가장 강력한 모델들입니다. 단어 오류율은 14.60%로 Ovi 1.1의 40.45%를 압도합니다. 이는 점진적인 개선이 아닙니다. 세대를 뛰어넘는 도약이며, 누구나 사용할 수 있습니다.

daVinci-MagiHuman이 중요한 이유

제대로 된 오픈소스

전체 스택이 Apache 2.0 — 가장 관대한 상업용 라이선스 — 으로 공개되었습니다:

  • 베이스 모델 가중치
  • 디스틸드 모델 (8단계 노이즈 제거, 클래스프리 가이던스 불필요)
  • 초해상도 모델
  • 전체 추론 코드베이스
  • Docker 및 conda 배포 설정

즉, 어떤 기업, 개발자, 연구자든 MagiHuman을 다운로드, 배포, 수정, 상업화할 수 있습니다 — 제한 없이. API 의존성도, 벤더 종속성도, 사용료도 없습니다.

게임을 바꾸는 속도

해상도소요 시간 (단일 H100)
256p (5초 영상)2초
540p (5초 영상)8초
1080p (5초 영상)38.4초

5초짜리 립싱크 영상을 2초 만에. 대부분의 이미지 생성기보다 빠릅니다. 이러한 속도는 이전에는 불가능했던 사용 사례를 열어줍니다 — 실시간 디지털 아바타, 라이브 콘텐츠 생성, 인터랙티브 캐릭터.

아키텍처: 단순함이 강점

다른 모델들이 크로스 어텐션 레이어, 별도의 모달리티 융합 블록, 멀티 인코더 파이프라인 등 복잡성을 쌓아가는 반면, MagiHuman은 정반대의 접근 방식을 취합니다. 텍스트, 영상, 오디오 토큰이 단순히 하나의 시퀀스로 연결되어 셀프 어텐션만을 사용하는 통합 트랜스포머로 처리됩니다.

40레이어 아키텍처는 “샌드위치 레이아웃”을 사용합니다: 처음과 마지막 4개 레이어에는 모달리티별 프로젝션이 있고, 중간 32개 레이어는 모든 모달리티에 걸쳐 가중치를 공유합니다. 모델은 공동 노이즈 제거 과정에서 직접 립싱크 정렬을 학습합니다 — 별도의 동기화 모듈이 필요 없습니다.

이 단순함은 한계가 아니라 장점입니다. 구성 요소가 적을수록 추론이 빠르고, 배포가 쉬우며, 동작이 예측 가능합니다.

daVinci-MagiHuman과 경쟁 모델 비교

지표daVinci-MagiHumanOvi 1.1LTX 2.3
인간 선호도 (승률)기준MagiHuman 80% 승MagiHuman 60.9% 승
단어 오류율14.60%40.45%
오픈소스 여부Apache 2.0독점오픈 웨이트
파라미터 수15B
속도 (256p, 5초, H100)2초
다국어 지원7개 언어제한적제한적

언어 지원

MagiHuman은 7개 언어로 음성 생성을 지원합니다: 중국어(만다린 및 광둥어), 영어, 일본어, 한국어, 독일어, 프랑스어. 대부분의 경쟁 모델은 영어 또는 영어+중국어만 지원합니다.

MagiHuman으로 무엇을 만들 수 있나

디지털 아바타 및 가상 발표자

고객 서비스 봇, 가상 어시스턴트, 이러닝 강사, 기업 커뮤니케이션을 위한 사실적인 토킹 헤드 영상을 생성하세요. 2초의 생성 시간으로 준실시간 애플리케이션이 가능합니다.

대규모 콘텐츠 현지화

하나의 언어로 콘텐츠를 녹화한 후 7개 언어로 립싱크된 버전을 생성하세요. 모델이 자연스러운 오디오와 정확한 입술 동기화로 다국어 음성을 처리합니다.

인터랙티브 엔터테인먼트

게임, 비주얼 노벨, 인터랙티브 스토리텔링 등 캐릭터 중심의 경험을 구축하세요 — 실시간으로 말하고, 감정을 표현하며, 반응하는 표현력 있는 디지털 휴먼과 함께.

마케팅 및 광고

배우를 고용하거나 스튜디오를 예약하지 않고도 말하는 인간 발표자가 등장하는 개인화된 영상 광고를 생성하세요. 하나의 버전에서 수천 개의 현지화된 변형으로 확장하세요.

팟캐스트 및 영상 콘텐츠

텍스트 스크립트를 동기화된 오디오가 포함된 토킹 헤드 영상으로 변환하세요. 크리에이터들이 카메라 앞에 나서지 않고도 글로 쓴 자료로 영상 콘텐츠를 제작할 수 있습니다.

WaveSpeedAI는?

MagiHuman은 자체 호스팅할 수 있는 오픈소스 모델입니다. 하지만 H100 인프라를 직접 관리하고 싶지 않다면, WaveSpeedAI는 이미 API를 통해 프로덕션 수준의 디지털 휴먼 및 립싱크 모델을 제공하고 있습니다:

MagiHuman이 WaveSpeedAI에서 제공될 때, 동일한 API를 통해 접근할 수 있습니다 — 인프라 관리 없이. 계속 지켜봐 주세요.

WaveSpeedAI에서 디지털 휴먼 모델 탐색하기 →

FAQ

daVinci-MagiHuman이란 무엇인가요?

Sand.ai와 GAIR Lab이 개발한 150억 파라미터 오픈소스 모델로, 동기화된 오디오가 포함된 립싱크 토킹 헤드 영상을 생성합니다. Apache 2.0 라이선스, 7개 언어 지원, 단일 H100에서 5초 영상을 2초 만에 생성합니다.

MagiHuman은 정말 오픈소스인가요?

네. 베이스 모델, 디스틸드 모델, 초해상도 모델, 추론 코드를 포함한 전체 스택이 GitHub과 Hugging Face에서 Apache 2.0으로 공개되었습니다.

MagiHuman의 속도는 얼마나 빠른가요?

단일 H100 GPU 기준 — 5초 256p 영상을 2초에, 540p를 8초에, 1080p를 38.4초에 생성합니다.

MagiHuman은 상용 모델과 비교해 어떤가요?

Ovi 1.1 대비 인간 평가에서 80%, LTX 2.3 대비 60.9% 승률을 기록합니다. 단어 오류율(14.60%)은 Ovi 1.1(40.45%)보다 약 3배 우수합니다.

MagiHuman을 상업적으로 사용할 수 있나요?

네. Apache 2.0은 제한 없는 상업적 사용, 수정, 배포를 허용합니다.

모든 클로즈드 디지털 휴먼 플랫폼이 주목해야 할 오픈소스 모델

daVinci-MagiHuman은 오픈소스가 독점 모델을 — 설득력 있게 — 이길 수 있다는 것을 증명했습니다. 150억 파라미터, 2초 생성, 상업적 대안 대비 80% 승률, 그리고 완전 무료 사용. 디지털 휴먼 시장은 이제 이전과 같지 않을 것입니다.