← 博客

daVinci MagiHuman Text-to-Video现已登陆WaveSpeedAI

daVinci MagiHuman Text-to-Video可从文本提示生成以人物为核心的电影级视频,支持可选音频同步。150亿参数开源模型,分辨率最高1080p,时长5至10秒。提供REST API,定价$0.04/秒,无冷启动。

1 min read
Wavespeed Ai Davinci Magihuman Text To Video daVinci MagiHuman Text-to-Video可从文本提示生成以人物为核心的电影级视频,支持可选音频同步...
Try it

daVinci MagiHuman 文生视频现已登陆WaveSpeedAI:仅凭文字即可生成以人物为核心的视频

无需参考图像。只需描述场景、角色、动作和氛围——daVinci MagiHuman 文生视频即可根据纯文字提示生成以人物为核心的电影级视频,并支持可选的音频同步功能。

MagiHuman 文生视频基于同款150亿参数开源架构构建,在人工评估中以80%的胜率击败商业竞品(对比Ovi 1.1),专为真实人物动作、丰富面部表情和自然肢体动态而生。现已通过REST API在WaveSpeedAI上线。

daVinci MagiHuman 文生视频的工作原理

用自然语言描述你的场景——角色、背景、镜头运动、光线、氛围——MagiHuman 即可生成将你的描述栩栩如生呈现出来的视频。该模型的单流Transformer架构在统一序列中处理文本、视频和音频token,生成连贯的、以人物为核心的同步动作视频。

MagiHuman 与通用文生视频模型的区别在于其针对人物主体的专项优化。其他模型将人物视为场景中的普通对象,而MagiHuman 能够在面部表情、语音表情协调、真实肢体运动学和自然手势动态方面达到令生成人物看起来真实生动的水平。

添加可选音轨后,模型会将生成的视频与音乐或语音同步——动作与节奏匹配,表情随之变化,表演能量自然流露。

daVinci MagiHuman 文生视频的核心特性

  • 以人物为核心的卓越表现:专为真实人物动作、面部表情和肢体动态而生,而非通用模型的附加功能。

  • 150亿参数开源架构:与在人工评估中实现14.60% WER(对比Ovi 1.1的40.45%)、获得80%胜率的模型架构相同。遵循Apache 2.0协议。

  • 音频引导生成:上传音乐或语音音频,模型即可生成与音频同步的视频——唇形同步、表情和肢体动作全部匹配。

  • 最高支持1080p,时长5-10秒:以256p快速迭代,以720p用于正式制作,以1080p输出高质量成品。时长可按1秒为单位调整。

  • 双画面比例:16:9适合电影级横屏画面,9:16适合社交媒体竖屏——原生支持各类平台。

  • 内置提示词增强:自动优化你的文字描述,提升场景构图和视觉质量。

  • 可复现结果:通过种子参数在特定创作方向上进行一致性迭代。

daVinci MagiHuman 文生视频的最佳应用场景

电影级角色场景

描述一个角色、所处环境和镜头运动——MagiHuman 即可生成具有自然人物表演的电影级场景。例如:“一个穿着风衣的女人在雨夜东京小巷中行走,手持镜头,温暖霓虹倒影,浅景深。“

音频同步音乐视频

上传音乐并描述视觉概念。MagiHuman 生成角色动作、表情和能量与节拍同步的视频——一个API调用即完成音乐视频制作流程。

规模化社交媒体内容

为TikTok、Instagram Reels和YouTube Shorts生成竖屏(9:16)角色驱动内容。描述场景,获取视频,直接发布。将内容产量从每天一条扩展至数十条。

虚拟代言人生成

无需参考照片,直接从文字描述创建说话人视频。描述代言人的外貌、背景和表达风格——MagiHuman 生成完整视频。添加音频实现唇形同步。

分镜和预可视化

导演和制片人可以从剧本描述生成场景预览。在确定选角、取景地或制作设计决策之前,先看看场景在动态中的呈现效果。

广告创意测试

从文字描述生成多个广告概念视频,每个视频采用不同的角色、背景和氛围。在投入完整制作之前,测试哪个创意方向更能引发共鸣。

daVinci MagiHuman 文生视频定价与API访问

时长256p720p1080p
5秒$0.15$0.20$0.25
7秒$0.21$0.28$0.35
10秒$0.30$0.40$0.50

按秒计费:$0.03(256p)、$0.04(720p)、$0.05(1080p)。

如需使用参考照片进行图像引导生成,请使用 daVinci MagiHuman 图生视频

为什么选择WaveSpeedAI?

  • 无冷启动:视频生成立即开始
  • 简洁REST API:文字提示+可选音频=电影级视频
  • 按需付费:按秒计费,无需订阅
  • 完整MagiHuman生态:文生视频和图生视频同在一个平台

使用 daVinci MagiHuman 文生视频获得最佳效果的技巧

  • 编写详细提示词——包含角色描述、背景、光线、镜头运动和氛围,以获得最具电影感的效果
  • 指定镜头语言:“跟踪镜头”、“特写”、“变焦推拉”、“鸟瞰视角”、“背景虚化”
  • 先以256p($0.03/秒)测试,再以1080p渲染
  • 音轨能显著改变效果——即使是环境音乐也能大幅提升动作质量和节奏感
  • 角色近景内容使用9:16,场景驱动的电影镜头使用16:9
  • 找到满意效果后固定种子,然后迭代提示词

常见问题

daVinci MagiHuman 文生视频是什么?

一个专为以人物为核心内容优化的150亿参数开源视频生成模型。支持从文字提示生成带可选音频同步的电影级视频,最高支持1080p分辨率和10秒时长。

它与其他文生视频模型有何不同?

MagiHuman 专为人物主体而生——真实的面部表情、自然的肢体动作和语音表情协调,这些是通用模型无法企及的。

费用是多少?

根据分辨率不同,每秒$0.03至$0.05。一段5秒720p视频费用为$0.20。

可以添加音频吗?

可以。上传音乐或语音音频,模型即可将生成的视频与音频同步——唇部动作、表情和肢体动作全部匹配。

这与开源的daVinci-MagiHuman有关联吗?

是的。相同的150亿参数架构,遵循Apache 2.0协议。在WaveSpeedAI上,你无需管理GPU基础设施即可即时通过API访问。

与WAN 2.5相比如何?

MagiHuman 被描述为在视频生成质量上”与WAN 2.5不相上下”,在以人物为核心的场景方面尤为突出——面部表现、唇形同步和肢体动态。

以人物为核心的视频生成,从文字到画面

WaveSpeedAI上的 daVinci MagiHuman 文生视频将150亿参数开源基础模型的强大能力带给每一位创作者——电影级人物表演、音频同步和真实动作,仅凭一段文字提示即可实现。

立即体验 daVinci MagiHuman 文生视频 →