#lip-sync

30 articles - Page 3

ElevenLabs Eleven V3 Timing 现已登陆WaveSpeedAI

ElevenLabs Eleven-V3 Timing将文本转换为自然语音，并返回对齐元数据——JSON格式的字符/单词时间戳——用于精确字幕、卡拉OK效果和唇同步。支持voice_id、相似度/稳定性和可选的Speaker Boost。价格为每1000个字符0.10美元。随时可用

字节跳动 LatentSync 结合 Stable Diffusion 和 TREPA 技术，实现高分辨率端到端唇形同步，在生成视频中呈现精准逼真的口型动作。提供即用型 REST 推理 API、最佳性能、无冷启动、价格实惠。

在几分钟内将任何单张照片转换为会说话的 InfiniteTalk-fast 虚拟形象。

目前，大多数 AI 视频工具只能生成无声视频。虽然谷歌的 Veo 3 已将唇音同步技术带入主流，但现有解决方案仍缺乏对扩展交互式对话的真正支持。

LongCat Avatar能将单张照片和音频轨道转化为超逼真的唇形同步说话或唱歌头像视频，具有自然的动态效果和一致的身份认同——每次生成最长可达2分钟。

Veo 3 现已在 WaveSpeedAI 上线：音视频 AI 生成