Introducing WaveSpeedAI LTX 2 19b Control on WaveSpeedAI
Présentation de LTX-2 19B ControlNet : transformation vidéo-à-vidéo précise avec guidance par pose, profondeur et contours
Le paysage de la génération vidéo par IA a atteint un nouveau jalon. LTX-2 19B ControlNet apporte la puissance de la guidance structurelle à la transformation vidéo, permettant aux créateurs de remodeler le contenu vidéo tout en préservant le mouvement et la dynamique qui rendent les séquences captivantes. Construit sur l’architecture révolutionnaire de Transformateur de Diffusion de 19 milliards de paramètres de Lightricks, ce modèle représente un progrès significatif dans la génération vidéo contrôlée.
Qu’est-ce que LTX-2 19B ControlNet ?
LTX-2 19B ControlNet est un modèle de transformation vidéo-à-vidéo qui utilise la détection de pose, de profondeur ou de contours Canny pour guider la génération de nouveau contenu vidéo tout en maintenant la structure de mouvement de votre entrée. Le modèle repose sur la même fondation puissante que la famille LTX-2 : un transformateur de diffusion asymétrique à double flux avec 48 couches qui traite simultanément les jetons vidéo et audio.
Ce qui distingue ce modèle est sa capacité à générer du contenu audio-vidéo synchronisé jusqu’à 20 secondes de longueur. L’architecture divise ses 19 milliards de paramètres stratégiquement : environ 14 milliards pour le traitement vidéo et 5 milliards pour l’audio, permettant une sortie multimodale cohérente en une seule passe.
L’intégration ControlNet vous permet de choisir exactement comment le modèle interprète votre vidéo source. Que vous souhaitiez préserver le mouvement humain par la détection de pose, maintenir la structure de la scène par la cartographie de profondeur, ou suivre des contours précis par la détection Canny, vous avez un contrôle complet sur le processus de transformation.
Caractéristiques principales
Trois modes de guidance pour chaque cas d’usage
-
Mode pose : extrait les informations squelettiques et de pose de votre vidéo d’entrée, idéal pour le transfert de mouvement humain et de personnages. Ce mode suit de manière fiable le positionnement du corps dans les images, ce qui le rend parfait pour les séquences de danse, les mouvements athlétiques ou tout contenu où le mouvement humain est au centre.
-
Mode profondeur : crée des cartes de profondeur à partir de votre vidéo source pour préserver la structure de la scène et les relations spatiales. Utilisez ceci quand vous voulez transformer des environnements, modifier les styles visuels ou appliquer des effets créatifs tout en maintenant la géométrie fondamentale de votre séquence.
-
Mode contours Canny : détecte les contours dans votre matériel source pour guider la génération tout en préservant les formes et les contours. Ce mode excelle dans les applications de transfert de style où vous devez maintenir des limites visuelles précises.
Gestion audio flexible
Le modèle offre trois modes audio pour correspondre à vos besoins créatifs :
- Préserver : gardez la piste audio originale de votre vidéo d’entrée—essentiel pour les scénarios de synchronisation labiale
- Générer : créez un nouvel audio synchronisé qui correspond aux visuels transformés
- Aucun : générez une vidéo silencieuse pour les projets où vous ajouterez l’audio séparément
Intégration d’image de référence
Téléchargez une image de référence pour définir l’apparence de votre vidéo transformée. Le modèle appliquera les caractéristiques visuelles de votre référence tandis que la vidéo d’entrée contrôle tout le mouvement. Cela permet des transformations puissantes dirigées par des personnages où vous pouvez animer n’importe quelle image de personnage avec le mouvement de séquences de référence.
Amélioration de prompt intégrée
L’améliorateur de prompt intégré améliore automatiquement vos descriptions textuelles pour de meilleurs résultats. Combiné avec l’encodeur de texte Gemma-3 du modèle, qui comprend les indices de langage nuancés incluant les émotions des personnages, les mouvements de caméra et les directions d’éclairage, cette fonctionnalité vous aide à obtenir des résultats professionnels sans ingénierie de prompt extensive.
Cas d’usage réels
Animation de personnages et transfert de mouvement
Transformez une image de personnage statique en vidéo entièrement animée en appliquant le mouvement de séquences de référence. Que vous travailliez avec des personnages illustrés, des photographies ou des avatars numériques, le mode de guidance par pose capture le mouvement avec précision tandis que l’image de référence définit la sortie visuelle.
Transfert de danse pour les réseaux sociaux
Créez du contenu attrayant en transférant les mouvements de danse viraux à n’importe quel sujet. Le mode pose suit le positionnement du corps image par image, vous permettant de transformer les vidéos de danse en animations stylisées—parfait pour le contenu TikTok, Instagram Reels et YouTube Shorts.
Transfert de style vidéo
Appliquez des transformations visuelles dramatiques aux séquences existantes tout en préservant le mouvement original. Utilisez le mode profondeur pour maintenir la structure de la scène alors que vous modifiez les styles visuels, ou le mode contours Canny quand la préservation précise des formes est la plus importante.
Cohérence des personnages dans la production vidéo
Pour les créateurs travaillant sur du contenu de série ou des vidéos de marque, la fonction d’image de référence garantit une apparence de personnage cohérente sur plusieurs clips. Le mouvement peut provenir de différentes vidéos source tandis que l’apparence du personnage reste uniforme.
Création de vidéo avec synchronisation labiale
Préservez l’audio original tout en transformant l’apparence visuelle de votre sujet. Ce workflow est particulièrement utile pour créer du contenu doublé, des versions animées de séquences en direct ou des modifications vidéo préservant la confidentialité.
Commencer sur WaveSpeedAI
L’utilisation de LTX-2 19B ControlNet sur WaveSpeedAI est simple :
- Téléchargez votre vidéo source — Cela fournit la structure de mouvement pour votre sortie
- Ajoutez une image de référence (optionnel) — Définissez l’apparence que vous souhaitez dans votre vidéo transformée
- Écrivez votre prompt — Décrivez ce que vous voulez créer
- Sélectionnez votre mode de contrôle — Choisissez pose, profondeur ou Canny selon vos besoins
- Choisissez la gestion audio — Préservez l’original, générez un nouveau ou aucun
- Définissez votre résolution — 480p pour les itérations rapides, 720p pour la qualité équilibrée, 1080p pour les rendus finaux
- Générez — Soumettez et téléchargez votre vidéo transformée
import wavespeed
output = wavespeed.run(
"wavespeed-ai/ltx-2-19b/control",
{
"video": "https://example.com/source-video.mp4",
"image": "https://example.com/reference.jpg",
"prompt": "A person dancing in a futuristic neon city",
"mode": "pose",
"audio_mode": "generate",
"resolution": "720p"
},
)
print(output["outputs"][0])
Tarification
Le modèle suit une tarification simple par seconde basée sur la résolution :
| Résolution | 5s | 10s | 15s | 20s |
|---|---|---|---|---|
| 480p | $0.15 | $0.30 | $0.45 | $0.60 |
| 720p | $0.20 | $0.40 | $0.60 | $0.80 |
| 1080p | $0.30 | $0.60 | $0.90 | $1.20 |
Conseils pro pour les meilleurs résultats
- Alignez les poses de départ : alignez la pose du sujet dans votre image de référence avec la pose de départ dans votre vidéo source pour des résultats transparents
- Choisissez le bon mode : utilisez pose pour le mouvement humain/personnage, profondeur pour la structure de scène, Canny pour la précision basée sur les contours
- Itérez efficacement : commencez à 480p pour affiner votre approche, puis rendez la sortie finale à 720p ou 1080p
- Stratégie audio : préservez l’audio pour les projets de synchronisation labiale, générez pour le contenu frais, ou utilisez aucun quand vous ajouterez l’audio en post-production
Pourquoi WaveSpeedAI ?
WaveSpeedAI offre l’environnement idéal pour exécuter LTX-2 19B ControlNet :
- Pas de démarrages à froid : vos tâches commencent à être traitées immédiatement sans délais d’infrastructure
- Inférence optimisée : le déploiement optimisé par NVIDIA garantit les temps de génération les plus rapides possibles
- Tarification transparente : payez uniquement pour ce que vous générez avec une facturation claire par seconde
- API prête pour la production : intégrez directement dans vos applications et workflows
Commencez à créer dès aujourd’hui
LTX-2 19B ControlNet ouvre de nouvelles possibilités pour les créateurs vidéo, les animateurs et les développeurs qui ont besoin d’un contrôle précis sur les transformations vidéo. La combinaison des modes de guidance ControlNet, de la gestion audio flexible et de la puissante architecture DiT 19B offre des résultats de qualité professionnelle à des prix accessibles.
Prêt à transformer vos vidéos avec une guidance structurelle précise ? Essayez LTX-2 19B ControlNet sur WaveSpeedAI et découvrez ce qui est possible quand vous avez un contrôle total sur la génération vidéo par IA.





