Présentation de LTX-2 19B ControlNet : transformation vidéo-à-vidéo précise avec guidance par pose, profondeur et contours

Le paysage de la génération vidéo par IA a atteint un nouveau jalon. LTX-2 19B ControlNet apporte la puissance de la guidance structurelle à la transformation vidéo, permettant aux créateurs de remodeler le contenu vidéo tout en préservant le mouvement et la dynamique qui rendent les séquences captivantes. Construit sur l’architecture révolutionnaire de Transformateur de Diffusion de 19 milliards de paramètres de Lightricks, ce modèle représente un progrès significatif dans la génération vidéo contrôlée.

Qu’est-ce que LTX-2 19B ControlNet ?

LTX-2 19B ControlNet est un modèle de transformation vidéo-à-vidéo qui utilise la détection de pose, de profondeur ou de contours Canny pour guider la génération de nouveau contenu vidéo tout en maintenant la structure de mouvement de votre entrée. Le modèle repose sur la même fondation puissante que la famille LTX-2 : un transformateur de diffusion asymétrique à double flux avec 48 couches qui traite simultanément les jetons vidéo et audio.

Ce qui distingue ce modèle est sa capacité à générer du contenu audio-vidéo synchronisé jusqu’à 20 secondes de longueur. L’architecture divise ses 19 milliards de paramètres stratégiquement : environ 14 milliards pour le traitement vidéo et 5 milliards pour l’audio, permettant une sortie multimodale cohérente en une seule passe.

L’intégration ControlNet vous permet de choisir exactement comment le modèle interprète votre vidéo source. Que vous souhaitiez préserver le mouvement humain par la détection de pose, maintenir la structure de la scène par la cartographie de profondeur, ou suivre des contours précis par la détection Canny, vous avez un contrôle complet sur le processus de transformation.

Caractéristiques principales

Trois modes de guidance pour chaque cas d’usage

Mode pose : extrait les informations squelettiques et de pose de votre vidéo d’entrée, idéal pour le transfert de mouvement humain et de personnages. Ce mode suit de manière fiable le positionnement du corps dans les images, ce qui le rend parfait pour les séquences de danse, les mouvements athlétiques ou tout contenu où le mouvement humain est au centre.
Mode profondeur : crée des cartes de profondeur à partir de votre vidéo source pour préserver la structure de la scène et les relations spatiales. Utilisez ceci quand vous voulez transformer des environnements, modifier les styles visuels ou appliquer des effets créatifs tout en maintenant la géométrie fondamentale de votre séquence.
Mode contours Canny : détecte les contours dans votre matériel source pour guider la génération tout en préservant les formes et les contours. Ce mode excelle dans les applications de transfert de style où vous devez maintenir des limites visuelles précises.

Gestion audio flexible

Le modèle offre trois modes audio pour correspondre à vos besoins créatifs :

Préserver : gardez la piste audio originale de votre vidéo d’entrée—essentiel pour les scénarios de synchronisation labiale
Générer : créez un nouvel audio synchronisé qui correspond aux visuels transformés
Aucun : générez une vidéo silencieuse pour les projets où vous ajouterez l’audio séparément

Intégration d’image de référence

Téléchargez une image de référence pour définir l’apparence de votre vidéo transformée. Le modèle appliquera les caractéristiques visuelles de votre référence tandis que la vidéo d’entrée contrôle tout le mouvement. Cela permet des transformations puissantes dirigées par des personnages où vous pouvez animer n’importe quelle image de personnage avec le mouvement de séquences de référence.

Amélioration de prompt intégrée

L’améliorateur de prompt intégré améliore automatiquement vos descriptions textuelles pour de meilleurs résultats. Combiné avec l’encodeur de texte Gemma-3 du modèle, qui comprend les indices de langage nuancés incluant les émotions des personnages, les mouvements de caméra et les directions d’éclairage, cette fonctionnalité vous aide à obtenir des résultats professionnels sans ingénierie de prompt extensive.

Cas d’usage réels

Animation de personnages et transfert de mouvement

Transformez une image de personnage statique en vidéo entièrement animée en appliquant le mouvement de séquences de référence. Que vous travailliez avec des personnages illustrés, des photographies ou des avatars numériques, le mode de guidance par pose capture le mouvement avec précision tandis que l’image de référence définit la sortie visuelle.

Transfert de danse pour les réseaux sociaux

Créez du contenu attrayant en transférant les mouvements de danse viraux à n’importe quel sujet. Le mode pose suit le positionnement du corps image par image, vous permettant de transformer les vidéos de danse en animations stylisées—parfait pour le contenu TikTok, Instagram Reels et YouTube Shorts.

Transfert de style vidéo

Appliquez des transformations visuelles dramatiques aux séquences existantes tout en préservant le mouvement original. Utilisez le mode profondeur pour maintenir la structure de la scène alors que vous modifiez les styles visuels, ou le mode contours Canny quand la préservation précise des formes est la plus importante.

Cohérence des personnages dans la production vidéo

Pour les créateurs travaillant sur du contenu de série ou des vidéos de marque, la fonction d’image de référence garantit une apparence de personnage cohérente sur plusieurs clips. Le mouvement peut provenir de différentes vidéos source tandis que l’apparence du personnage reste uniforme.

Création de vidéo avec synchronisation labiale

Préservez l’audio original tout en transformant l’apparence visuelle de votre sujet. Ce workflow est particulièrement utile pour créer du contenu doublé, des versions animées de séquences en direct ou des modifications vidéo préservant la confidentialité.

Commencer sur WaveSpeedAI

L’utilisation de LTX-2 19B ControlNet sur WaveSpeedAI est simple :

Téléchargez votre vidéo source — Cela fournit la structure de mouvement pour votre sortie
Ajoutez une image de référence (optionnel) — Définissez l’apparence que vous souhaitez dans votre vidéo transformée
Écrivez votre prompt — Décrivez ce que vous voulez créer
Sélectionnez votre mode de contrôle — Choisissez pose, profondeur ou Canny selon vos besoins
Choisissez la gestion audio — Préservez l’original, générez un nouveau ou aucun
Définissez votre résolution — 480p pour les itérations rapides, 720p pour la qualité équilibrée, 1080p pour les rendus finaux
Générez — Soumettez et téléchargez votre vidéo transformée

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2-19b/control",
    {
        "video": "https://example.com/source-video.mp4",
        "image": "https://example.com/reference.jpg",
        "prompt": "A person dancing in a futuristic neon city",
        "mode": "pose",
        "audio_mode": "generate",
        "resolution": "720p"
    },
)

print(output["outputs"][0])

Tarification

Le modèle suit une tarification simple par seconde basée sur la résolution :

Résolution	5s	10s	15s	20s
480p	$0.15	$0.30	$0.45	$0.60
720p	$0.20	$0.40	$0.60	$0.80
1080p	$0.30	$0.60	$0.90	$1.20

Conseils pro pour les meilleurs résultats

Alignez les poses de départ : alignez la pose du sujet dans votre image de référence avec la pose de départ dans votre vidéo source pour des résultats transparents
Choisissez le bon mode : utilisez pose pour le mouvement humain/personnage, profondeur pour la structure de scène, Canny pour la précision basée sur les contours
Itérez efficacement : commencez à 480p pour affiner votre approche, puis rendez la sortie finale à 720p ou 1080p
Stratégie audio : préservez l’audio pour les projets de synchronisation labiale, générez pour le contenu frais, ou utilisez aucun quand vous ajouterez l’audio en post-production

Pourquoi WaveSpeedAI ?

WaveSpeedAI offre l’environnement idéal pour exécuter LTX-2 19B ControlNet :

Pas de démarrages à froid : vos tâches commencent à être traitées immédiatement sans délais d’infrastructure
Inférence optimisée : le déploiement optimisé par NVIDIA garantit les temps de génération les plus rapides possibles
Tarification transparente : payez uniquement pour ce que vous générez avec une facturation claire par seconde
API prête pour la production : intégrez directement dans vos applications et workflows

Commencez à créer dès aujourd’hui

LTX-2 19B ControlNet ouvre de nouvelles possibilités pour les créateurs vidéo, les animateurs et les développeurs qui ont besoin d’un contrôle précis sur les transformations vidéo. La combinaison des modes de guidance ControlNet, de la gestion audio flexible et de la puissante architecture DiT 19B offre des résultats de qualité professionnelle à des prix accessibles.

Prêt à transformer vos vidéos avec une guidance structurelle précise ? Essayez LTX-2 19B ControlNet sur WaveSpeedAI et découvrez ce qui est possible quand vous avez un contrôle total sur la génération vidéo par IA.

Présentation de LTX-2 19B ControlNet : transformation vidéo-à-vidéo précise avec guidance par pose, profondeur et contours

Qu’est-ce que LTX-2 19B ControlNet ?

Caractéristiques principales

Cas d’usage réels

Commencer sur WaveSpeedAI

Conseils pro pour les meilleurs résultats

Pourquoi WaveSpeedAI ?

Commencez à créer dès aujourd’hui

Articles associés

Seedance 2.0 arrive bientôt : Le modèle vidéo nouvelle génération de ByteDance avec audio natif

Guide Complet Seedance 2.0 : Création Vidéo Multimodale

Seedance 2.0 vs Kling 3.0 vs Sora 2 vs Veo 3.1 : La Comparaison Ultime de la Génération Vidéo

Guide Complet Seedream 5.0-Preview : Génération d'Images Intelligente

Seedream 5.0 vs Nano Banana Pro vs GPT Image 1.5 vs Flux Klein vs Qwen Image : Comparaison Complète

Le Chrome alimenté par l'IA est arrivé : Évolution d'un afficheur de contenu à un comprenneur de contenu