#talking-head

6 articles

daVinci-MagiHuman：碾压所有数字人生成器的开源模型

daVinci-MagiHuman 是一个 150 亿参数的开源模型，能在单张 H100 上 2 秒内生成唇形同步的说话头像视频。胜过 Ovi 1.1（80% 胜率）和 LTX 2.3（60.9%），采用 Apache 2.0 许可，支持多语言，速度极快。

daVinci MagiHuman图像转视频是一款150亿参数的开源模型，可将参考图像动画化为电影级视频，并支持可选音频同步。性能媲美WAN 2.5。最高支持1080p分辨率，时长5至10秒。提供REST API，价格为$0.04/秒，无冷启动。

daVinci MagiHuman Text-to-Video可从文本提示生成以人物为核心的电影级视频，支持可选音频同步。150亿参数开源模型，分辨率最高1080p，时长5至10秒。提供REST API，定价$0.04/秒，无冷启动。

InfiniteTalk Fast 多角色唇形同步技术可将视频与两条音轨转换为逼真的说话或演唱视频。比标准版便宜50%，支持最长10分钟视频。提供开箱即用的REST推理API，性能卓越，无冷启动，价格实惠。

InfiniteTalk Video-to-Video Multi 可从视频和两路音频输入生成逼真的多角色唇形同步视频，支持 480p/720p 分辨率，时长最长可达 10 分钟，并保持全身动作连贯性。提供即用型 REST 推理 API，性能卓越，无冷启动，定价实惠。

SoulX FlashHead 可以以 96 FPS 的速度生成实时流式说话人头像视频，零身份漂移，支持无限时长视频。立即在 WaveSpeedAI 上体验。