← Blog

Présentation de WaveSpeedAI LTX 2.3 Image-to-Vidéo sur WaveSpeedAI

LTX-2.3 est un modèle de fondation audio-vidéo basé sur DiT conçu pour générer des vidéos et des audios synchronisés au sein d'un seul modèle, avec une qualité audio et visuelle améliorée

7 min read
Wavespeed Ai Ltx.2.3 Image To Video
Wavespeed Ai Ltx.2.3 Image To Video LTX-2.3 est un modèle de fondation audio-vidéo basé sur DiT ...
Try it
Présentation de WaveSpeedAI LTX 2.3 Image-to-Vidéo sur WaveSpeedAI

Donnez Vie à Vos Images avec LTX-2.3 Image-to-Video sur WaveSpeedAI

Les images statiques racontent une histoire. Les images animées avec du son font ressentir cette histoire au public. Avec LTX-2.3 Image-to-Video désormais disponible sur WaveSpeedAI, vous pouvez transformer n’importe quelle image fixe en vidéo haute fidélité — avec audio synchronisé — en une seule passe de génération. Sans post-production. Sans outils audio séparés. Il suffit d’importer, de rédiger un prompt et d’appuyer sur lecture.

Développé par Lightricks sur l’architecture Diffusion Transformer (DiT), LTX-2.3 représente une avancée majeure dans la génération audio-vidéo unifiée. Là où la plupart des modèles image-to-video produisent des clips silencieux nécessitant une conception sonore séparée, LTX-2.3 génère le mouvement et l’audio ensemble en une seule sortie cohérente. Le résultat est un contenu animé qui semble complet dès la première image.

Qu’est-ce que LTX-2.3 ?

LTX-2.3 est la dernière itération de la famille de modèles LTX-2 — un modèle fondateur de 19 milliards de paramètres répartis approximativement entre 14 milliards pour le traitement vidéo et 5 milliards pour l’audio. C’est l’un des premiers modèles open source capables de générer de l’audio et de la vidéo synchronisés au sein d’une architecture unifiée unique, utilisant des mécanismes de cross-attention pour maintenir le son et le mouvement parfaitement alignés.

La version « 2.3 » introduit des améliorations significatives par rapport à son prédécesseur : un VAE (Variational Autoencoder) reconstruit et entraîné sur des données de meilleure qualité, un vocodeur HiFi-GAN amélioré pour une sortie audio plus nette, une meilleure cohérence image-to-video, et une meilleure adhérence aux prompts tout au long du pipeline de génération.

Fonctionnalités Clés

  • Génération Audio-Vidéo Synchronisée : Le son n’est pas ajouté comme une réflexion après coup. Les bruits ambiants, la musique, les indices de dialogue et les effets sonores sont générés en parallèle du mouvement visuel en une seule passe, éliminant le besoin de workflows audio séparés.

  • Nouveau VAE pour des Détails Plus Nets : L’espace latent reconstruit dans LTX-2.3 préserve les textures fines, les traits du visage, les cheveux, le texte et les détails des contours sur toute l’image. Les sorties sont visiblement plus nettes que les versions précédentes.

  • Sortie Audio Plus Claire : Un vocodeur HiFi-GAN amélioré réduit les artefacts sonores et les silences. Les dialogues, les sons ambiants et la musique ressortent avec une clarté nettement supérieure.

  • Préservation Fidèle de l’Image : Le modèle conserve le sujet, la composition, le cadrage et l’éclairage de votre image de référence tout en ajoutant un mouvement naturel et cohérent — sans dérive d’identité ni dégradation visuelle.

  • Résolution et Durée Flexibles : Générez des vidéos en 480p, 720p ou 1080p, avec des durées allant de 5 à 20 secondes, vous permettant d’équilibrer qualité, coût et besoins créatifs.

  • Support Portrait et Paysage : Le mode portrait natif 9:16 facilite la production de contenu optimisé pour les plateformes sociales comme Instagram Reels, TikTok et YouTube Shorts.

  • Options 24/48 FPS : Choisissez la fréquence d’images qui correspond à vos exigences de sortie, de la lecture standard à une diffusion plus fluide en haute fréquence d’images.

Cas d’Usage Concrets

Marketing Produit

Transformez vos photographies de produits en vidéos de présentation dynamiques. Importez un cliché héros d’une sneaker, d’un flacon de soin ou d’un meuble, et LTX-2.3 l’anime avec un mouvement subtil — une vue en rotation, un éclairage changeant, une atmosphère environnementale — tout en générant un audio ambiant correspondant. Ce qui nécessitait autrefois un vidéaste et un concepteur sonore peut désormais être ébauché en quelques secondes.

Contenu pour les Réseaux Sociaux

La demande de vidéos en format court est incessante. LTX-2.3 permet aux créateurs de convertir leurs meilleures images fixes en publications animées qui captent l’attention avec du son intégré. Une photographie de paysage devient un moment cinématographique avec le vent et le chant des oiseaux. Une photo de nourriture devient un clip grésillant et fumant, prêt à être publié.

Animation de Portraits et de Personnages

Animez des portraits, des headshots et des illustrations de personnages avec des mouvements naturels. Le modèle excelle à préserver l’identité faciale tout en ajoutant un mouvement réaliste — rotations subtiles de la tête, clignements, changements d’expression — ce qui le rend précieux pour les avatars numériques, les projets créatifs et le contenu personnalisé.

Storyboard et Pré-Visualisation

Pour les cinéastes et les directeurs créatifs, LTX-2.3 transforme les images statiques de storyboard et les concepts artistiques en séquences animées avec audio synchronisé. Cela accélère la pré-production en donnant aux parties prenantes une impression tangible du rythme, de l’ambiance et de la conception sonore avant qu’une seule image ne soit tournée.

E-Commerce et Publicité

Les fiches produits statiques perdent l’attention. Les vidéos de produits animées avec son ambiant augmentent l’engagement et les taux de conversion. LTX-2.3 rend pratique la génération d’assets vidéo à grande échelle — itérez rapidement en 480p, puis rendez les assets finaux en 1080p.

Démarrer sur WaveSpeedAI

Utiliser LTX-2.3 Image-to-Video sur WaveSpeedAI est simple. Sans démarrages à froid et avec une inférence rapide, vous obtenez des résultats en secondes plutôt qu’en minutes.

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2.3/image-to-video",
    {
        "image": "https://your-image-url.com/photo.jpg",
        "prompt": "The camera slowly pushes in as the subject turns their head, soft ambient music playing"
    },
)

print(output["outputs"][0])  # URL de la vidéo de sortie

Vous pouvez également spécifier la résolution et la durée :

output = wavespeed.run(
    "wavespeed-ai/ltx-2.3/image-to-video",
    {
        "image": "https://your-image-url.com/product.jpg",
        "prompt": "Gentle rotation revealing product details, soft studio lighting, subtle ambient hum",
        "resolution": "1080p",
        "duration": 10
    },
)

Conseil de pro : Commencez en 480p avec des durées courtes pour affiner votre prompt et la direction du mouvement. Une fois que vous avez le résultat souhaité, passez en 1080p pour la livraison finale. Utilisez une seed fixe lorsque vous comparez des variations de prompt afin d’isoler exactement ce qui a changé.

Tarification

LTX-2.3 sur WaveSpeedAI commence à seulement 0,10 $ pour un clip de 5 secondes en 480p, jusqu’à 0,80 $ pour une vidéo de 20 secondes en 1080p. Aucun abonnement requis — payez uniquement ce que vous générez.

Résolution5s10s15s20s
480p0,10 $0,20 $0,30 $0,40 $
720p0,15 $0,30 $0,45 $0,60 $
1080p0,20 $0,40 $0,60 $0,80 $

Pourquoi WaveSpeedAI ?

Dans un paysage où la génération audio-vidéo synchronisée devient rapidement la norme — avec des modèles comme Veo 3.1, Kling 3.0 et Sora 2 qui repoussent toujours les limites — LTX-2.3 se distingue comme une option open source puissante avec une qualité de niveau production. Et l’utiliser sur WaveSpeedAI vous donne l’infrastructure à la hauteur : inférence rapide sans démarrages à froid, intégration API simple, et une tarification qui rend l’expérimentation abordable.

Que vous soyez un créateur solo animant du contenu pour les réseaux sociaux ou une équipe générant des assets vidéo à grande échelle, la combinaison de la génération audio-vidéo unifiée de LTX-2.3 et de l’infrastructure optimisée de WaveSpeedAI signifie moins de temps d’attente et plus de temps consacré à la création.

Commencez à Créer

L’écart entre une image fixe et une vidéo complète avec son n’a jamais été aussi faible. Essayez LTX-2.3 Image-to-Video sur WaveSpeedAI dès aujourd’hui et découvrez ce que vos images donnent en mouvement avec du son.