#digital-human

37 articles

daVinci-MagiHuman：碾压所有数字人生成器的开源模型

daVinci-MagiHuman 是一个 150 亿参数的开源模型，能在单张 H100 上 2 秒内生成唇形同步的说话头像视频。胜过 Ovi 1.1（80% 胜率）和 LTX 2.3（60.9%），采用 Apache 2.0 许可，支持多语言，速度极快。

daVinci MagiHuman图像转视频是一款150亿参数的开源模型，可将参考图像动画化为电影级视频，并支持可选音频同步。性能媲美WAN 2.5。最高支持1080p分辨率，时长5至10秒。提供REST API，价格为$0.04/秒，无冷启动。

daVinci MagiHuman Text-to-Video可从文本提示生成以人物为核心的电影级视频，支持可选音频同步。150亿参数开源模型，分辨率最高1080p，时长5至10秒。提供REST API，定价$0.04/秒，无冷启动。

InfiniteTalk Fast 多角色唇形同步技术可将视频与两条音轨转换为逼真的说话或演唱视频。比标准版便宜50%，支持最长10分钟视频。提供开箱即用的REST推理API，性能卓越，无冷启动，价格实惠。

InfiniteTalk Video-to-Video Multi 可从视频和两路音频输入生成逼真的多角色唇形同步视频，支持 480p/720p 分辨率，时长最长可达 10 分钟，并保持全身动作连贯性。提供即用型 REST 推理 API，性能卓越，无冷启动，定价实惠。

SkyReels V3 Talking Avatar可从一张人像照片和音频生成逼真的说话人像视频，支持40+语言唇形同步。立即在WaveSpeedAI上体验。

SoulX FlashHead 可以以 96 FPS 的速度生成实时流式说话人头像视频，零身份漂移，支持无限时长视频。立即在 WaveSpeedAI 上体验。

Longcat Avatar生成超逼真、唇形同步的长视频，具有自然的动态和一致的身份特征。将一张照片和音频转换为音频驱动的说话或唱歌虚拟形象视频（图像转视频），最长支持1分钟，720p价格为$0.30/5秒。现成可用的REST API，无冷启动问题

InfiniteTalk将一张照片+音频转换为音频驱动的说话或唱歌虚拟形象视频（图像转视频），最长10分钟，720p层级$0.30/5秒。即用型REST API，无冷启动，价格实惠。

Live Avatar 从参考图像和音频生成会说话的头像视频，创建具有自然表情的逼真唇形同步动画。

Kling AI虚拟形象为数字身份和内容创作生成令人惊艳的AI视频虚拟形象，按需视频计费，$0.25每5秒。即用型REST API，无冷启动，价格实惠。

InfiniteTalk Multi将单张图像和两个音频输入转换为最高720p分辨率的多角色对话或唱歌视频。提供开箱即用的REST推理API、最佳性能、无冷启动、价格实惠。