← 博客

WaveSpeedAI LTX 2.3图像转视频LoRA现已登陆WaveSpeedAI

支持LoRA的LTX-2.3是一个基于DiT架构的音视频基础模型,专为生成具有自定义风格、动作或形象的同步视频和音频而设计

2 min read
Wavespeed Ai Ltx.2.3 Image To Video Lora
Wavespeed Ai Ltx.2.3 Image To Video Lora 支持LoRA的LTX-2.3是一个基于DiT架构的音视频基础模型,专为生成具有自定义风格、动作或形象的同步视频和音频而设...
Try it
WaveSpeedAI LTX 2.3图像转视频LoRA现已登陆WaveSpeedAI

为图像注入自定义风格:LTX-2.3 图像转视频 LoRA 正式上线

静态图像固然有力,但动态才能讲述故事。随着 LTX-2.3 图像转视频 LoRA 在 WaveSpeedAI 上线,你现在可以将任何静态图像转化为高保真视频,并自带同步音频——还能通过 LoRA 适配器,用你自己训练的风格、角色和运动模式定制输出效果。

LTX-2.3 基于 Lightricks 最新的扩散 Transformer(DiT)架构,拥有 190 亿参数,代表了开源视频生成领域的代际飞跃。借助 WaveSpeedAI 上的 LoRA 支持,你不再受限于基础模型的默认设置——可以将品牌美学、特定电影风格或角色形象直接注入生成流程。

什么是 LTX-2.3 图像转视频 LoRA?

LTX-2.3 是 Lightricks 最新的音视频基础模型,这一变体将两种鲜少同时出现的能力结合在一起:图像条件视频生成LoRA 微调支持

具体而言:你提供一张参考图像——产品照片、肖像或概念艺术——模型会在单次推理中将其动画化为带有自然运动和同步音频的视频。LoRA 层支持同时叠加最多三个自定义适配器,将输出引导至你基于自有数据训练的特定视觉风格、运动动态或角色形象。

最终呈现的是一个开箱即用且高度可定制的视频生成流程,完全满足专业工作流的需求。

LTX-2.3 的全新升级

LTX-2.3 并非小幅迭代,Lightricks 重构了模型的三个核心组件:

  • 重新设计的 VAE:新的变分自编码器基于更高质量的数据训练,能生成更清晰的细节、更真实的纹理和更干净的边缘。发丝、文字和小物体在完整画幅中保持清晰度——这一改进在高分辨率下尤为明显。

  • 4 倍更大的文本连接器:新的门控注意力机制使提示词的遵循度更高。对时序、运动、表情和音频提示的描述能更准确地转化为生成输出。

  • 改进的 HiFi-GAN 声码器:音频质量大幅提升,声音更纯净,噪声伪影减少,对话、音乐和环境音的处理更出色。早期版本中存在的静音间隙和伪影问题已被过滤消除。

  • 更佳的图像转视频运动效果:模型从输入帧生成更自然、更真实的运动,减少了静态的”Ken Burns”平移效果,取而代之的是真正尊重参考图像构图、光线和主体的动画。

  • 原生竖版支持:无需从横版裁剪,直接生成 9:16 竖向视频,完美适配社交媒体和移动端优先的内容。

核心功能

  • 音视频同步生成:音频与视频在单次模型推理中同时生成——无需独立的音频处理流程。声音与视觉运动和提示词语境高度匹配。
  • LoRA 定制化:同时叠加最多 3 个 LoRA 适配器,控制风格、运动和形象。每个适配器均包含 scale 参数,支持精细混合。
  • 灵活分辨率:可选 480p 快速迭代、720p 平衡质量,或 1080p 最终交付。
  • 可变时长:单次生成 5 至 20 秒的视频片段。
  • 构图保留:模型在添加自然连贯运动的同时,保持输入图像的主体、构图和光线。

实际应用场景

产品营销

将产品摄影转化为吸睛视频广告。上传主视觉图,描述细微运动和环境音效,再应用品牌风格 LoRA,在整个营销活动中保持视觉一致性。

角色动画

针对特定角色或吉祥物训练 LoRA,然后以一致的形象为该角色的任意姿势或场景制作动画。非常适合动画工作室、游戏开发者以及打造标志性 IP 的内容创作者。

社交媒体内容

将静态社交帖子转化为吸引眼球的视频内容。原生竖版模式支持直接生成适用于 TikTok 和 Instagram Reels 的竖向视频,无需后期处理。

电影级叙事

以特定电影风格 LoRA——黑色电影、动漫、纪录片——为故事板画面或概念艺术制作动画,并获得具有匹配音频氛围的连贯视频。

大规模品牌一致性内容

使用风格 LoRA 将视频生成锁定在特定美学规范内。无论生成一条还是一百条内容,每件作品都承载着你品牌的视觉标识。

在 WaveSpeedAI 上快速开始

只需几行代码即可上手:

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2.3/image-to-video-lora",
    {
        "image": "https://example.com/your-image.jpg",
        "prompt": "The woman turns her head slowly and smiles, soft ambient music plays",
        "loras": [
            {"path": "https://example.com/your-style-lora.safetensors", "scale": 0.8}
        ],
        "resolution": "720p",
        "duration": 10,
    },
)

print(output["outputs"][0])

随需扩展的定价方案

分辨率5秒10秒15秒20秒
480p$0.15$0.30$0.45$0.60
720p$0.20$0.40$0.60$0.80
1080p$0.25$0.50$0.75$1.00

先用 480p 快速迭代提示词和 LoRA 组合,准备好最终输出时再升级至 1080p。

最佳效果使用技巧

  • 明确描述音频,当你需要特定声音时:比如”窗上的雨声”、“轻快的爵士乐”或”掌声”。
  • 聚焦运动提示词——每条提示词只描述一个清晰动作,效果最连贯。
  • 使用高质量输入图像,清晰且曝光良好,动画保真度更高。
  • 以 480p 快速迭代,最终版本再以 720p 或 1080p 渲染。
  • 对比 LoRA 变体时固定随机种子,将风格差异与随机变化隔离开来。

总结

WaveSpeedAI 上的 LTX-2.3 图像转视频 LoRA 为你提供了生产级视频生成能力,同时具备专业工作流所需的深度定制性。视觉质量提升、同步音频与 LoRA 适配器支持的组合,意味着你生成的不再是千篇一律的泛化视频——而是属于你的视频,你的风格,你的规模。

无冷启动、快速推理、透明的按秒计费,没有任何门槛阻碍你立即开始。

立即在 WaveSpeedAI 上体验 LTX-2.3 图像转视频 LoRA,看看你的图像能变成什么。