WaveSpeedAI LTX 2.3 图像转视频现已登陆WaveSpeedAI
LTX-2.3 是一款基于 DiT 架构的音视频基础模型,专为在单一模型内同步生成视频与音频而设计,具备更出色的音频与画面质量。
在WaveSpeedAI上使用LTX-2.3图像转视频,让你的图片动起来
静态图片讲述故事,而有声动态图像让观众感同身受。随着LTX-2.3图像转视频功能在WaveSpeedAI上线,你可以将任意静态图片转化为高保真视频——包含同步音频——一次生成即可完成。无需后期制作,无需单独的音频工具。只需上传、填写提示词,然后播放。
LTX-2.3由Lightricks基于扩散变换器(DiT)架构构建,代表着统一音视频生成领域的重大突破。大多数图像转视频模型只能生成静音片段,需要单独进行声音设计,而LTX-2.3能够同时生成运动画面和音频,作为一个完整的输出呈现。最终产出的动态内容从第一帧起便浑然一体。
LTX-2.3是什么?
LTX-2.3是LTX-2模型系列的最新版本——这是一个拥有190亿参数的基础模型,大致分为140亿视频处理参数和50亿音频参数。它是首批能够在单一统一架构中生成同步音视频的开源模型之一,采用交叉注意力机制确保声音与画面完美对齐。
“2.3”版本相较于前代有了显著改进:使用更高质量数据重新训练的VAE(变分自编码器)、升级的HiFi-GAN声码器带来更清晰的音频输出、更强的图像转视频一致性,以及整个生成流程中更好的提示词遵循能力。
核心功能
-
同步音视频生成:声音并非事后附加的补丁。环境音、音乐、对话提示和音效与视觉运动在单次生成中同步产生,无需单独的音频工作流。
-
全新VAE带来更清晰的细节:LTX-2.3重建的潜在空间能够在完整画面中保留精细纹理、面部特征、发丝、文字和边缘细节。输出质量明显优于以往版本。
-
更纯净的音频输出:改进的HiFi-GAN声码器减少了噪音伪影和静音间隙。对话、环境音和音乐的清晰度明显提升。
-
忠实还原参考图像:模型在添加自然连贯运动的同时,保持参考图像的主体、构图、取景和光线——无身份漂移,无画质损失。
-
灵活的分辨率与时长:支持480p、720p或1080p分辨率生成视频,时长从5秒到20秒不等,让你在质量、成本和创意需求之间灵活平衡。
-
竖屏与横屏均支持:原生9:16竖屏模式让你轻松制作适配Instagram Reels、TikTok和YouTube Shorts等社交平台的内容。
-
24/48帧率可选:根据输出需求选择合适的帧率,从标准播放到更流畅的高帧率呈现。
实际应用场景
产品营销
将产品摄影转化为动态展示视频。上传一双运动鞋、一瓶护肤品或一件家具的主图,LTX-2.3会为其添加微妙的运动效果——旋转视角、光线变化、环境氛围——同时生成匹配的环境音频。原本需要摄影师和音效设计师完成的工作,现在几秒钟内就能完成初稿。
社交媒体内容
对短视频内容的需求永无止境。LTX-2.3让创作者能够将最出色的静态图片转化为自带声音、吸引眼球的动态帖子。一张风景照变成了伴有风声和鸟鸣的电影级瞬间,一张美食照变成了滋滋作响、热气腾腾的短片,随时可以发布。
人像与角色动画
为头像、肖像和角色艺术作品添加自然动感。该模型在保持面部特征的同时,能够添加栩栩如生的动作——细微的转头、眨眼、表情变化——非常适合用于数字虚拟形象、创意项目和个性化内容创作。
故事板与预可视化
对于电影制作人和创意总监而言,LTX-2.3能够将静态故事板帧和概念艺术转化为配有同步音频的动态序列。这让利益相关者在开拍前就能直观感受节奏、氛围和声音设计,从而加速前期制作流程。
电商与广告
静态产品列表难以留住注意力。带有环境音的产品动态视频能够提升参与度和转化率。LTX-2.3让批量生成视频素材变得切实可行——先用480p快速迭代,再用1080p渲染最终资产。
在WaveSpeedAI上快速上手
在WaveSpeedAI上运行LTX-2.3图像转视频非常简便。无需冷启动,推理速度快,几秒内即可获得结果。
import wavespeed
output = wavespeed.run(
"wavespeed-ai/ltx-2.3/image-to-video",
{
"image": "https://your-image-url.com/photo.jpg",
"prompt": "The camera slowly pushes in as the subject turns their head, soft ambient music playing"
},
)
print(output["outputs"][0]) # 输出视频URL
你也可以指定分辨率和时长:
output = wavespeed.run(
"wavespeed-ai/ltx-2.3/image-to-video",
{
"image": "https://your-image-url.com/product.jpg",
"prompt": "Gentle rotation revealing product details, soft studio lighting, subtle ambient hum",
"resolution": "1080p",
"duration": 10
},
)
专业建议:先用480p和较短时长来调整提示词和运动方向。满意后再升级到1080p进行最终输出。在对比不同提示词变体时使用固定种子值,这样可以精确定位变化所在。
定价
WaveSpeedAI上的LTX-2.3起价仅需**$0.10**(480p 5秒片段),最高**$0.80**(1080p 20秒视频)。无需订阅——按实际生成量付费。
| 分辨率 | 5秒 | 10秒 | 15秒 | 20秒 |
|---|---|---|---|---|
| 480p | $0.10 | $0.20 | $0.30 | $0.40 |
| 720p | $0.15 | $0.30 | $0.45 | $0.60 |
| 1080p | $0.20 | $0.40 | $0.60 | $0.80 |
为什么选择WaveSpeedAI?
在同步音视频生成迅速成为行业标准的当下——Veo 3.1、Kling 3.0和Sora 2等模型都在不断突破边界——LTX-2.3以其生产级质量脱颖而出,成为一个强大的开源选项。在WaveSpeedAI上运行它,你还能获得配套的基础设施支持:无冷启动的快速推理、简洁的API集成,以及让实验成本可控的定价体系。
无论你是独立创作者为社交媒体制作动态内容,还是团队批量生成视频素材,LTX-2.3的统一音视频生成能力与WaveSpeedAI优化的基础设施相结合,意味着更少的等待时间和更多的创作时间。
立即开始创作
静态图片与完整有声视频之间的距离,从未如此之近。立即在WaveSpeedAI上体验LTX-2.3图像转视频,听听你的图片在运动中发出怎样的声音。





