WaveSpeed 博客

PixVerse V6 推出20+电影级镜头控制、原生音频多镜头视频、15秒1080p稳定输出及开发者CLI工作流支持。了解V6带来的全新功能，以及现在可用的最佳AI视频模型。

Anthropic 的下一代 Claude Mythos 模型在一次数据泄露中被曝光。以下是泄露文件中关于其编码、推理和网络安全能力的内容——以及这对 AI 意味着什么。

深度对比Suno v5.5、MiniMax Music 2.5和Google Lyria 3 Pro的AI音乐生成能力——涵盖音质、人声、创作控制、定价及API访问。

daVinci-MagiHuman 是一个 150 亿参数的开源模型，能在单张 H100 上 2 秒内生成唇形同步的说话头像视频。胜过 Ovi 1.1（80% 胜率）和 LTX 2.3（60.9%），采用 Apache 2.0 许可，支持多语言，速度极快。

daVinci MagiHuman图像转视频是一款150亿参数的开源模型，可将参考图像动画化为电影级视频，并支持可选音频同步。性能媲美WAN 2.5。最高支持1080p分辨率，时长5至10秒。提供REST API，价格为$0.04/秒，无冷启动。

daVinci MagiHuman Text-to-Video可从文本提示生成以人物为核心的电影级视频，支持可选音频同步。150亿参数开源模型，分辨率最高1080p，时长5至10秒。提供REST API，定价$0.04/秒，无冷启动。

在 ComfyUI 中配置 LTX-2.3：检查点放置、Gemma 3 12B 编码器设置、两阶段生成流水线，以及面向消费级 GPU 的低显存解决方案。

使用官方ltx-trainer在LTX-2.3上训练自定义LoRA。涵盖风格LoRA、IC-LoRA结构控制、秩设置、数据集准备及常见训练失败问题。

Google Lyria 3 Clip 可根据文本提示、歌词、描述和音频生成完整音乐曲目。支持图像引导生成、负向提示词及可复现结果。REST API 接入，每段仅需 $0.04，无冷启动延迟。

Google Lyria 3 Pro可生成高品质AI音乐，相比Clip层级拥有更丰富的编曲、更细腻的表达与更高的音频保真度。支持文本与图像引导的音乐创作。REST API，每段$0.08，无冷启动。

LTX-2.3 与 WAN 2.2 全面对比：速度、分辨率、原生音频、ComfyUI 生态成熟度及授权许可。哪款开源视频模型更适合您的生产工作流？

已在使用 LTX-2？本文介绍升级至 LTX-2.3 前需了解的变更内容、注意事项及验证步骤，涵盖模型大小、ComfyUI 节点、LoRA 兼容性及 API 差异。