← Blog

LTX-2.3 : Les nouveautés du modèle vidéo 22B de Lightricks (2026)

LTX-2.3 passe à 22 milliards de paramètres avec un nouveau VAE, un audio plus net, le format portrait 9:16 et des suréchantillonneurs spatiaux/temporels. Voici ce qui a vraiment changé.

12 min read
LTX-2.3 : Les nouveautés du modèle vidéo 22B de Lightricks (2026)

Bonjour à tous, je suis Dora. Un petit détail m’a poussée à essayer ​ ​LTX‑2.3 la semaine dernière : un clip de 4 secondes où les fermetures éclair d’une veste ne cessaient de se fondre dans le tissu. Je ne cherchais pas un nouveau modèle. Je voulais juste que les fermetures éclair ressemblent à des fermetures éclair sans bidouiller pendant une heure. J’ai donc mis de côté une soirée et relancé une poignée des mêmes prompts et repères audio que j’utilise depuis LTX‑2. Mes notes ci-dessous ne sont pas une visite guidée des fonctionnalités. Ce sont les points où cette version a réellement changé mon quotidien, et ceux où elle ne l’a pas fait.

LTX-2 vs LTX-2.3 en un coup d’œil

Voici le tableau récapitulatif que j’aurais aimé avoir avant de commencer. Je partage ce que j’ai observé et ce qui est indiqué dans les notes de version. Si quelque chose semble approximatif, c’est intentionnel.

Paramètres~10–14 Mrd (échelle génération précédente)~22 Mrd (annoncé par l’éditeur : contexte élargi)
VAEVAE standard : micro‑détails plus douxNouveau VAE haute fidélité : bords fins plus nets, dégradés plus propres
Encodeur texteBonne adhérence aux prompts, quelques imprécisions sur les petits objetsMise à jour avec meilleure prise en charge des petits objets et transfert de style
AudioConditionnement audio basique, déphasages/tremblements occasionnelsCouche audio reconstruite : conditionnement plus propre, moins d’artefacts
Base/SortieStable en base 720p, support portrait via contournementsPortrait 9:16 natif, même base mais meilleurs upscalers
Nouveautés/Améliorations audio‑to‑video, upscalers spatiaux et temporels, options 24/48 FPS

Deux points clés à retenir de ce tableau : la mise à niveau du VAE est le héros discret côté visuels, et la pile audio semble moins fragile. Le saut en paramètres aide à la cohérence, mais ne corrige pas magiquement la logique de storyboard ni la typographie précise.

Nouveau VAE — Ce que signifie concrètement un meilleur rendu des détails fins

Avec LTX‑2, je voyais souvent les textures fines « respirer » entre les images : un grain de tissu qui paraissait correct à la frame 12 et s’étalait à la frame 17. Avec le nouveau VAE de LTX‑2.3, les bords et les micro‑textures se tiennent mieux. La différence n’est pas évidente au premier coup d’œil : c’est l’absence de petites irritations.

En pratique :

  • Les cheveux fins et les cils ne se collent pas aussi vite lorsque le mouvement s’accélère.
  • Les bords chromés conservent un reflet plus net sans s’étaler.
  • Les dégradés dans les ciels et les ombres présentent moins de banding.

Cela ne m’a pas fait gagner du temps dans un premier temps — je faisais toujours mes balayages habituels de débruitage et de seed. Mais après trois passages, j’ai arrêté de faire des masques de retouche manuels sur les bijoux et les fermetures éclair. C’est du « temps économisé » de manière lente et cumulative : peut-être 6 à 8 minutes par clip de 10 secondes.

Mise en garde : cela peut aussi faire ressortir une sur-netteté si vous poussez des prompts très contrastés. Dans ces cas-là, j’ai réduit le guidance d’un cran (environ 5–10 %) pour éviter des frames trop croustillantes.

Où vous verrez la différence (visages, textures, petits objets, chrome)

J’ai gardé l’ensemble de tests restreint : trois prompts que je connais par cœur, lancés aux mêmes seeds durant la semaine du 18 au 24 mars.

  • Visages : Les pores, les fins cheveux de bébé et les coins des yeux résistent mieux au mouvement. Ça ressemble moins à un « filtre beauté » par défaut. J’ai encore eu occasionnellement des sourires étranges quand j’ai trop contraint le prompt, mais moins de joues cireuses dans l’ensemble.
  • Textures : Denim, lin, acier brossé. Ce sont celles qui se sont le plus améliorées. Le modèle respecte le motif du tissu sans pulsations. Avec LTX‑2, j’obtenais parfois une « dérive de texture » toutes les ~8–10 frames. C’est en grande partie disparu.
  • Petits objets : Aiguilles de montre, boutons, vis. Ils conservent leur forme plus longtemps avant de se fondre dans leur environnement. Pas parfait, mais moins de sauts où une vis se transforme en tache.
  • Chrome et spéculaires : Les reflets s’épanouissent moins. J’ai remarqué des transitions plus nettes sur les jantes réfléchissantes et les robinets, ce qui évite que la frame paraisse sur-traitée.

Là où ça n’a pas changé la donne : le texte imprimé détaillé en scène (étiquettes, panneaux) reste aléatoire. Si un texte lisible et net est essentiel, je le compositerais encore par-dessus.

Couche audio reconstruite : génération plus propre, moins d’artefacts

Les générations conditionnées par l’audio semblent plus stables. Avec LTX‑2, j’entendais un léger déphasage ou tremblement quand je m’appuyais sur des repères rythmiques. Avec la 2.3, c’est plus rare. J’ai testé un clic à 120 BPM avec un pad drone, puis une piste de guide en voix parlée.

Ce qui a changé pour moi :

  • Le mouvement aligné sur le tempo est plus cohérent sans que l’exposition ne « plonge » pour suivre la grosse caisse.
  • Plus d’espace autour des sibilantes en voix off, moins de parasites qui étalaient les frames.
  • Moins d’artefacts audibles intégrés dans les exports. Sur les anciens rendus, j’entendais parfois un fantôme du conditionnement dans le rendu final. C’est absent dans mes tests.

Limites : Le calage précis mouvement‑sur‑beat n’est toujours pas là. Si vous avez besoin de marqueurs de temps parfaits, il faudra couper en post.

Ce à quoi l’audio-to-video est (et n’est pas) adapté

L’audio‑to‑video dans la 2.3 est bon pour façonner l’énergie et le rythme. Il n’est pas idéal pour la synchronisation labiale ou la chorégraphie précise.

Où cela m’a aidée :

  • Les reels ambiants où l’ambiance suit les montées musicales. Le modèle « respire » avec la piste au lieu de pomper l’exposition.
  • Les clips produit avec des whooshes doux, les transitions semblent guidées plutôt qu’aléatoires.

Où cela n’a pas aidé :

  • Synchronisation labiale sur un monologue. Les formes de bouche dérivent encore. Je ne m’y fierais pas pour des talking heads.
  • Coupes exactes sur le beat ou pas de danse. C’est suffisant pour l’ambiance, pas pour les comptes précis.

Je l’utilise donc comme une couche d’échafaudage : obtenir la sensation de mouvement depuis l’audio, puis verrouiller les montages dans un vrai NLE.

Portrait 9:16 et nouvelles options de fréquence d’images (24 / 48 FPS)

Le format portrait 9:16 natif a enfin supprimé ma chaîne de recadrage bricolée. Les compositions verticales semblent plus intentionnelles — un vrai cadrage, pas juste un rognage. J’ai relancé une séquence de café que j’avais tournée en LTX‑2 (recadrée depuis le paysage) et le passage vertical en 2.3 m’a donné une meilleure discipline des bords autour des mains et des tasses.

Sur les fréquences d’images :

  • 24 fps : Le mouvement a un rendu cinématographique mais peut stroboscoper sur les panoramiques rapides. C’est toujours mon réglage par défaut pour les atmosphères narratives.
  • 48 fps : Mouvement plus fluide sans l’aspect « soap opera » que je craignais. Utile pour les rotations de produits et les détails macro, surtout associé aux nouveaux upscalers.

Une légère friction : les 48 fps doublent votre charge de révision. J’ai commencé à exporter des segments courts pour les vérifications, sinon je ratais de petits artefacts cachés entre les frames.

Upscalers spatiaux et temporels : comment ils fonctionnent ensemble

J’avais l’habitude de faire l’upscaling spatial dans un outil séparé et d’accepter le tremblement temporel comme prix à payer. Les upscalers couplés de LTX‑2.3 réduisent ce compromis.

Comment je l’ai utilisé :

  1. Générer à une base confortable (pensez 720p), valider le mouvement.
  2. Upscaler spatial pour améliorer les détails.
  3. Upscaler temporel pour stabiliser entre les frames.

Ce que j’ai remarqué :

  • Faire le temporel en dernier évite l’ancien problème des « belles frames isolées, séquence saccadée ».
  • La paire supprime 1–2 passes de ma pipeline. J’ai arrêté les allers-retours vers des denoisers externes pour la plupart des clips.
  • Cas d’échec : si le mouvement de base est déjà chaotique, l’upscaling temporel peut étaler les micro-mouvements. J’ai corrigé cela en réduisant légèrement la force du mouvement avant l’upscaling.

Ce n’est pas de la magie, mais c’est la partie la plus « compatible avec les flux de travail » de cette version pour moi.

Échelle 22 Mrd : ce que le saut en paramètres change (et ne change pas)

Les modèles plus grands peuvent mémoriser plus de contexte et mieux généraliser. Cela s’est traduit ici par une persistance des objets plus stable sur 6 à 10 secondes et une meilleure adhérence aux prompts à plusieurs clauses.

Changements ressentis :

  • Moins d’échanges d’objets en milieu de séquence (la tasse rouge reste rouge plus longtemps).
  • Les instructions de style sont respectées de manière plus fiable.

Ce que ça ne corrige pas :

  • La logique spatiale complexe (par ex., « la caméra passe derrière la chaise, puis révèle un miroir montrant… »). Il faut toujours un prompting soigné et parfois un storyboard.
  • Le rendu parfait du texte en scène. Toujours problématique.

Coûts :

  • Besoins VRAM plus importants et latence de premier token plus longue. Mon poste local (24 Go de VRAM) gérait les courtes exécutions en résolution de base ; tout ce qui était ambitieux nécessitait du tiling ou du déchargement.
  • Préchauffages légèrement plus longs. Pas énorme, mais perceptible si vous itérez vite.

À qui cela mérite d’être signalé maintenant

  • Développeurs (outils, nœuds, workflows personnalisés) : Le nouveau VAE et les upscalers valent la peine d’être intégrés. Ils éliminent deux tickets de support courants du type « pourquoi ça tremble ? ». Si vous livrez des presets, envisagez des valeurs de guidance conservatrices par défaut pour éviter un rendu trop net.
  • Équipes produit : La cohérence audio et le support 9:16 réduisent les frictions pour la production de contenu social. Si vos utilisateurs penchent vers les reels, le 48 fps + l’upscaling temporel est une mise à niveau tranquille. Ne survendre pas la synchro labiale — elle n’est pas au rendez-vous.
  • Créateurs : Si vous avez bataillé contre la dérive de texture ou détesté votre workflow de recadrage vertical, la 2.3 est une version qui améliore la qualité de vie. Si vous espériez un texte parfait ou une logique narrative hermétique, vous pouvez attendre tranquillement.

Mon calcul rapide : moins de masques de retouche, moins de détours externes. Ce n’est pas spectaculaire, mais je prends.

FAQ

Quelles sont les exigences VRAM pour LTX-2.3 en local ?

Ce que j’ai utilisé : 24 Go ont géré de courtes générations en résolution de base (environ 720p) avec de la marge pour de petits lots. Pour du 1080p ou des clips plus longs, j’ai eu besoin de tiling et d’un déchargement CPU occasionnel. Si vous avez 12–16 Go, attendez-vous à des exécutions plus lentes et des limites plus strictes. Vos besoins exacts varieront selon l’échantillonneur, la longueur du contexte et l’activation ou non des deux upscalers.

Si vous débutez dans le réglage de la mémoire, les notes de PyTorch sur la gestion de la mémoire CUDA constituent une bonne introduction.

LTX-2.3 est-il rétrocompatible avec les workflows ComfyUI LTX-2 existants ?

En grande partie, oui dans l’esprit, mais j’ai dû échanger les nœuds pour le nouveau VAE et ajuster le guidance. Mes anciens graphes LTX‑2 ComfyUI se chargeaient, puis se plaignaient de quelques champs dépréciés. Dix minutes de nettoyage de nœuds ont tout réglé. Si vous travaillez sous Comfy, gardez un œil sur le chargeur de modèle et les nœuds VAE. Le dépôt principal de ComfyUI est ici si vous avez besoin de références : ComfyUI sur GitHub.

LTX-2.3 est-il utilisable commercialement ?

Je ne suis pas avocate. J’ai vérifié la licence dans les notes de version et elle semblait standard pour un usage commercial avec les restrictions habituelles (attribution/usage acceptable). Si votre projet comporte des risques — campagnes de marque, diffusion — lisez la licence ligne par ligne et conservez une copie locale.

L’API est-elle disponible au lancement ?

J’ai utilisé des exécutions locales et un endpoint hébergé pendant les tests. L’API hébergée était indiquée comme disponible dans les notes, avec certains quotas. Si vous comptez sur des fonctionnalités API (webhooks, nouvelles tentatives, tâches longues), vérifiez-les dans la documentation officielle avant d’engager vos pipelines.

LTX-2.3 prend-il en charge le fine-tuning LoRA ?

J’ai vu des hooks LoRA exposés de manière similaire à LTX‑2, avec une note de compatibilité concernant l’encodeur de texte mis à jour. En pratique, mes anciens LoRAs se chargeaient mais nécessitaient un réglage (force réduite légèrement pour éviter les artefacts de surapprentissage). Si vous dépendez de fine-tunes, prévoyez du temps pour une re-calibration.

J’ai commencé à cause d’une fermeture éclair. Je termine avec moins de passes de retouche et un hack de recadrage en moins. Pas dramatique, juste… plus léger. C’est suffisant pour moi cette fois.

Articles précédents :