← Blog

Présentation de WaveSpeedAI LTX 2.3 Texte-to-Vidéo sur WaveSpeedAI

LTX-2.3 est un modèle de fondation audio-vidéo basé sur DiT, conçu pour générer des vidéos et des sons synchronisés au sein d'un seul modèle, avec une qualité audio et visuelle améliorée

By WaveSpeedAI 9 min read
Wavespeed Ai Ltx.2.3 Text To Video LTX-2.3 est un modèle de fondation audio-vidéo basé sur DiT,...
Try it

LTX-2.3 Texte-vers-Vidéo : Générez une Vidéo et un Audio Synchronisés à Partir d’un Simple Prompt

LTX-2.3 est un modèle de fondation audio-vidéo basé sur une architecture DiT qui génère des vidéos et des audios entièrement synchronisés à partir d’un simple prompt textuel — éliminant ainsi le flux de travail traditionnel en deux étapes consistant à produire les visuels et le son séparément. Désormais disponible sur WaveSpeedAI, cette nouvelle version améliorée offre des visuels plus nets, un audio plus riche et une meilleure adhérence au prompt par rapport à son prédécesseur, ce qui en fait un choix convaincant pour les créateurs souhaitant obtenir des clips prêts à la production sans avoir à assembler plusieurs outils d’IA.

Pour les studios, les professionnels du marketing et les créateurs indépendants, le principe est simple : décrivez une scène, obtenez une vidéo qui sonne déjà juste.

Comment Fonctionne LTX-2.3 Texte-vers-Vidéo

LTX-2.3 repose sur une architecture Diffusion Transformer (DiT) entraînée conjointement sur des données vidéo et audio. Au lieu de générer des séquences silencieuses et d’y ajouter le son par la suite, le modèle produit les deux modalités en un seul passage, de sorte que les événements à l’écran et les repères sonores restent alignés — les pas tombent sur le rythme, la pluie siffle lorsque les gouttes apparaissent, et l’ambiance sonore correspond au contexte visuel.

Caractéristiques techniques importantes pour les développeurs :

  • Entrée : Prompt textuel décrivant la scène, le mouvement et les repères audio
  • Sortie : Vidéo MP4 avec audio synchronisé intégré
  • Résolutions : 480p, 720p (par défaut), 1080p
  • Durée : 5 à 20 secondes en une seule génération
  • Contraintes : Largeur et hauteur divisibles par 32 ; nombre d’images divisible par 8 + 1
  • Contrôle de la graine : Graine fixe optionnelle pour des itérations reproductibles

Comparé aux modèles texte-vers-vidéo qui produisent des clips silencieux (style Sora ou versions antérieures de diffusion), LTX-2.3 regroupe deux pipelines — synthèse visuelle et génération audio — en un seul modèle de fondation. Cela se traduit par une latence réduite, un coût moindre et aucun travail de synchronisation manuelle en post-production.

Prêt à le tester ? Essayez LTX-2.3 Texte-vers-Vidéo sur WaveSpeedAI et générez votre premier clip en moins d’une minute.

Fonctionnalités Clés de LTX-2.3 Texte-vers-Vidéo

  • Audio-vidéo synchronisé en un seul passage — Aucune étape de conception sonore séparée. Le modèle génère l’ambiance, les effets et l’audio atmosphérique correspondants dans le cadre du même processus de diffusion.
  • Meilleure adhérence au prompt par rapport à LTX-2 — La mise à jour 2.3 renforce l’alignement entre les prompts détaillés et les scènes rendues, de sorte que les descriptions complexes se traduisent plus fidèlement à l’écran.
  • Trois niveaux de résolution (480p / 720p / 1080p) — Itérez à moindre coût en 480p, puis passez à la 1080p pour la livraison finale sans modifier votre prompt ni votre flux de travail.
  • Durée de clip variable jusqu’à 20 secondes — Suffisamment long pour les lectures publicitaires, les accroches sociales et les courtes séquences narratives ; suffisamment court pour maintenir des générations rapides.
  • Modèle de fondation basé sur DiT — L’architecture Diffusion Transformer offre un mouvement temporellement cohérent et des textures haute fidélité, notamment sur les scènes dynamiques.
  • API REST prête pour la production — Disponible sur WaveSpeedAI sans démarrages à froid, avec une latence prévisible et une tarification à l’usage.
  • Sorties reproductibles avec contrôle de la graine — Verrouillez la graine pour tester des variantes de prompts en A/B sans que la variance aléatoire n’interfère.

Meilleurs Cas d’Usage pour LTX-2.3 Texte-vers-Vidéo

Contenu pour les Réseaux Sociaux à Grande Échelle

Les plateformes de format court récompensent la vélocité et l’audio. LTX-2.3 permet aux créateurs de publier des clips TikTok, Reels et Shorts de 10 à 15 secondes avec une conception sonore intégrée — sans chasse à la musique libre de droits, sans montage sur Audacity. Tapez « rue de Tokyo aux néons, pluie sur les flaques, jazz lointain, lent travelling avant », et le modèle renvoie une publication exploitable.

Publicités Marketing et de Performance

Les professionnels du marketing de performance ont besoin de tester des dizaines de variantes créatives par semaine. Avec LTX-2.3, une agence peut générer une publicité complète en 720p pour 0,30 $ par spot de 10 secondes, changer le texte ou les descriptions de scène, et itérer les concepts créatifs plus rapidement que n’importe quel pipeline de production traditionnel. L’audio synchronisé signifie que chaque variante est prête pour les réseaux publicitaires dès le départ.

Storyboard et Pré-Visualisation

Les réalisateurs de films et les animateurs peuvent transformer des scènes écrites en previz vivantes avec une atmosphère correspondante. Décrivez une scène d’un scénario — « vent hurlant sur une crête désertique, cavalier qui galope devant la caméra, corbeau qui croasse au-dessus » — et utilisez le clip résultant pour aligner les directeurs de la photographie, les monteurs et les clients avant tout jour de tournage réel.

Démos de Produits et Vidéos Explicatives

Les équipes SaaS et matériel peuvent prototyper des vidéos explicatives sans réserver de studios. Décrivez le contexte du produit, le mouvement et l’ambiance, et utilisez LTX-2.3 pour générer des B-rolls d’arrière-plan qui sonnent déjà soignés — parfait pour les pages d’atterrissage, les flux d’intégration et les présentations.

Bandes-Annonces de Jeux et Concepts Cinématiques

Les studios de jeux indépendants peuvent rapidement ébaucher des montages de bandes-annonces et des vidéos de concepts atmosphériques. L’audio synchronisé est particulièrement précieux ici : un clip de 10 secondes d’embuscade en forêt avec bruissement de feuilles, choc d’épée et battement d’ailes d’oiseau transmet bien mieux le ton d’un jeu que des séquences silencieuses.

Visualiseurs de Musique et d’Ambiance

Les musiciens et créateurs lo-fi peuvent générer des pièces d’ambiance en boucle — « pluie sur une fenêtre, piano doux, zoom lent sur une tasse de café » — pour des visualiseurs de streaming, des arrière-plans de diffusion en direct et des publications sociales.

Contenu Éducatif et Narratif

Les éducateurs et les conteurs peuvent donner vie à du contenu écrit. Un auteur de livres pour enfants peut prototyper des lectures animées ; une chaîne d’histoire peut illustrer des moments de mise en scène sans avoir à licencier des images d’archives.

Tarification et Accès API de LTX-2.3

LTX-2.3 utilise une tarification transparente à l’usage, proportionnelle à la résolution et à la durée :

Résolution5s10s15s20s
480p0,10 $0,20 $0,30 $0,40 $
720p0,15 $0,30 $0,45 $0,60 $
1080p0,20 $0,40 $0,60 $0,80 $

Cela fait d’un clip 1080p de 20 secondes avec audio inclus seulement 0,80 $ — une fraction des coûts habituels de licence d’images d’archives ou de production vidéo en freelance.

Appeler LTX-2.3 via l’API WaveSpeedAI

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2.3/text-to-video",
    {
        "prompt": "A golden retriever runs through a sunlit meadow, paws thumping the grass, birds chirping overhead, gentle wind",
        "resolution": "720p",
        "duration": 10,
    },
)

print(output["outputs"][0])

Avantages de WaveSpeedAI pour les développeurs :

  • Aucun démarrage à froid — la latence du premier appel correspond à la latence en régime permanent
  • API REST — indépendante du langage, s’intègre dans n’importe quelle stack
  • Paiement à l’usage — sans minimums ni frais GPU inactifs
  • Disponibilité en production — conçue pour des charges de travail d’inférence à haut débit

Obtenez une clé API et commencez à construire avec LTX-2.3.

Conseils pour de Meilleurs Résultats avec LTX-2.3 Texte-vers-Vidéo

  • Soyez explicite sur l’audio — Le modèle génère automatiquement le son, mais préciser « pluie », « piano jazz », « foule qui applaudit » ou « pas sur le gravier » vous donne un meilleur contrôle sur la piste audio.
  • Décrivez le mouvement, pas seulement le décor — Les mouvements de caméra (« lent travelling avant », « plan-séquence caméra à l’épaule »), le mouvement des sujets et les repères de rythme produisent des sorties plus cinématiques que les descriptions statiques.
  • Itérez en 480p, rendez en 1080p — Utilisez le niveau le moins cher pour affiner votre prompt, puis augmentez la résolution une fois la composition verrouillée. Utilisez une graine fixe pour que les modifications restent significatives.
  • Limitez les prompts à un seul moment fort — Un clip de 10 secondes ne peut porter qu’un ou deux moments narratifs. Évitez d’entasser des scripts multi-scènes dans un seul prompt.
  • Montez les vidéos plus longues en post-production — Pour les contenus de plus de 20 secondes, générez plusieurs clips LTX-2.3 et assemblez-les dans votre NLE.
  • Utilisez le verrouillage de la graine pour les tests A/B — Lorsque vous comparez deux variantes de prompts, définissez la même seed pour isoler les changements de prompt de la variance de bruit.

Pour le contenu animé à partir d’œuvres existantes, associez LTX-2.3 à LTX-2.3 Image-vers-Vidéo pour maintenir la cohérence du style dans une campagne.

Foire aux Questions

Qu’est-ce que LTX-2.3 Texte-vers-Vidéo ?

LTX-2.3 est un modèle de fondation audio-vidéo basé sur DiT qui génère des vidéos et des audios synchronisés à partir d’un prompt textuel en un seul passage, disponible via API REST sur WaveSpeedAI.

Combien coûte LTX-2.3 ?

Les tarifs commencent à 0,10 $ pour un clip de 5 secondes en 480p et s’élèvent à 0,80 $ pour un clip de 20 secondes en 1080p — facturé par génération sans abonnement requis.

Puis-je utiliser LTX-2.3 via API ?

Oui. LTX-2.3 est disponible via l’API REST de WaveSpeedAI sans démarrages à froid. Soumettez un prompt, une résolution et une durée, et recevez une URL vidéo avec audio intégré.

LTX-2.3 génère-t-il automatiquement l’audio ?

Oui — l’audio est produit conjointement avec la vidéo dans le même passage du modèle. Vous pouvez laisser le modèle inférer l’audio à partir du contexte visuel ou décrire explicitement les sons dans votre prompt pour un contrôle plus précis.

Quelle est la durée maximale des vidéos LTX-2.3 ?

Chaque génération prend en charge de 5 à 20 secondes. Pour les vidéos plus longues, générez plusieurs clips et montez-les ensemble en post-production.

Commencez à Générer Vidéo et Audio avec LTX-2.3 Aujourd’hui

LTX-2.3 regroupe la synthèse vidéo et la production audio en un seul modèle rentable et de haute qualité — parfait pour les marketeurs, les créateurs et les développeurs qui ont besoin de clips rapides et finalisés sans jongler entre plusieurs outils distincts.

Essayez LTX-2.3 Texte-vers-Vidéo sur WaveSpeedAI →