#talking-head
6 articles
daVinci-MagiHuman: 모든 디지털 휴먼 생성기를 압도한 오픈소스 모델
daVinci-MagiHuman은 단일 H100에서 2초 만에 립싱크 토킹 헤드 영상을 생성하는 150억 파라미터 오픈소스 모델입니다. Ovi 1.1(승률 80%)과 LTX 2.3(60.9%)을 능가하며, Apache 2.0 라이선스, 다국어 지원, 초고속 처리를 자랑합니다.
daVinci MagiHuman Image-to-Video, WaveSpeedAI에 출시
daVinci MagiHuman Image-to-Video는 참조 이미지를 선택적 오디오 싱크와 함께 시네마틱 영상으로 애니메이션화하는 150억 파라미터 오픈소스 모델입니다. WAN 2.5와 동등한 수준이며, 최대 1080p, 5~10초 길이를 지원합니다. REST API 제공, $0.04/초, 콜드 스타트 없음.
daVinci MagiHuman Text-to-Video, WaveSpeedAI에 출시
daVinci MagiHuman Text-to-Video는 텍스트 프롬프트에서 선택적 오디오 싱크를 지원하는 시네마틱 인물 중심 영상을 생성합니다. 150억 파라미터 오픈소스 모델, 최대 1080p, 5~10초 영상. REST API, 초당 $0.04, 콜드 스타트 없음.
InfiniteTalk Fast Video-to-Video Multi, WaveSpeedAI에 출시
InfiniteTalk Fast 다중 캐릭터 립싱크는 영상과 두 개의 오디오 트랙을 사실감 넘치는 말하기 또는 노래 영상으로 변환합니다. 표준 대비 50% 저렴하며 최대 10분까지 지원합니다. 바로 사용 가능한 REST 추론 API, 최고의 성능, 콜드스타트 없음, 합리적인 가격을 제공합니다.
InfiniteTalk Video-to-Video Multi, WaveSpeedAI에 출시
InfiniteTalk Video-to-Video Multi는 영상과 두 개의 오디오 입력으로 여러 캐릭터가 등장하는 사실적인 립싱크 영상을 생성합니다. 480p/720p 해상도, 최대 10분 지원, 전신 일관성 유지. 즉시 사용 가능한 REST 추론 API, 최고의 성능, 콜드스타트 없음, 합리적인 가격을 제공합니다.
SoulX FlashHead: 96FPS 실시간 AI 토킹 헤드
SoulX FlashHead는 96FPS의 실시간 스트리밍 토킹 헤드 영상을 아이덴티티 드리프트 없이 생성합니다. 무한 길이 영상 지원. WaveSpeedAI에서 지금 체험해보세요.