扩展 AI 视频生成：Novita AI 如何通过 WaveSpeedAI 实现效率与成本的双重优化

Novita AI

WaveSpeedAI 显著提高了我们的推理效率，帮助我们将视频生成成本降低了 67%。通过更快、更可靠的视频处理，我们能够在规模上提供卓越的用户体验。
— Novita AI COO 黄骏宇

客户背景

Novita AI 是一家致力于 AI 推理基础设施的公司，专注于为创作者、开发者和企业提供可靠高效的视频生成推理服务。该公司支持多个主流视频生成模型的部署，覆盖从图像到视频和文本到视频生成的端到端能力，服务全球创意用户和 AI 平台，分辨率范围从 720P 到 1080P。

Novita AI

WaveSpeedAI 之前的挑战

随着模型数量和服务复杂性的增加，Novita AI 在推理架构和运营方面面临多项挑战：

多模型部署导致的复杂资源调度：支持 Wan 2.1、Kling V1.6 和 Hunyuan Video 等多个模型，每个模型都有不同的内存和计算需求，导致推理效率存在显著差异。
高清推理的高成本和 GPU 利用率不足：特别是对于 720P 和 1080P 视频生成任务，单次推理周期消耗大量 GPU 内存，导致单位生成成本高昂。
高并发下的不稳定延迟：一些大型模型在用户流量高峰期经历显著的响应延迟，对最终用户体验和平台信誉产生负面影响。

与 WaveSpeedAI 的合作

为了应对这些挑战，Novita AI 与 WaveSpeed AI 建立了深入合作，专注于以下核心模型的优化部署：

Wan 2.1 图像到视频 / 文本到视频

Wan 2.1 图像到视频 / 文本到视频

Hunyuan Video 快速版

MiniMax Video 01

MiniMax Video 01

Kling V1.6 图像到视频 / 文本到视频

Kling V1.6 图像到视频 / 文本到视频

在 WaveSpeed AI 的支持下，Novita 能够单独对每个模型进行微调，并在统一的 GPU 资源池中动态调度 GPU 资源，从而最大化性能和成本效益。

成果与收益

✅ 推理性能优化：推理效率提高了 25%，平均视频生成时间缩短了 30-40%。

模型	分辨率	优化前时间	优化后时间
Hunyuan Video 快速版	720P	2 分钟	1 分 30 秒
Wan 2.1 文本到视频	1280×720	2 分 24 秒	1 分 55 秒
Wan 2.1 图像到视频	1280×720	3 分 10 秒	2 分 30 秒
Kling V1.6 图像到视频	1080P / 5s	$0.98 / 视频	$0.92 / 视频

✅ 成本结构优化：平均单次调用成本降低 30% 以上，高分辨率场景中可节省高达 66%。

模型	分辨率	优化前成本	优化后成本	成本降幅
Hunyuan Video 快速版	720P	$0.18 / 秒	$0.06 / 秒	-66.7%
Wan 2.1 文本到视频	1280×720	$0.06 / 秒	$0.04 / 秒	-33.3%
Wan 2.1 图像到视频	1280×720	$0.08 / 秒	$0.06 / 秒	-25.0%
Kling V1.6 图像到视频	1080P / 5s	$0.49 / 视频	$0.46 / 视频	-6.1%

✅ 系统稳定性提升：模型在高并发下响应更稳定，视频生成成功率提高，故障率降至 0.05% 以下，显著增强了用户体验。

展望未来

未来，Novita AI 将继续深化与 WaveSpeed AI 的合作，进一步增强多模型部署的灵活性和稳定性，探索更高效的视频推理框架，不断优化成本结构。借助 WaveSpeedAI 的技术优势，Novita AI 有信心为全球客户提供更快、更稳定、更经济高效的视频生成服务，推动 AI 媒体生成领域的技术和商业价值发展。