WaveSpeedAI LTX 2 19b Text-to-Video jetzt auf WaveSpeedAI

LTX-2 19B startet auf WaveSpeedAI: Text-zu-Video-Generierung mit synchronisiertem Audio

Das Rennen um produktionsreife KI-Videogeneratoren hat gerade einen neuen Meilenstein erreicht. LTX-2 19B, Lightricks’ bahnbrechendes Text-zu-Video-Grundmodell, ist jetzt auf WaveSpeedAI verfügbar – und bringt synchronisierte Audio-Video-Generierung, mehrere Leistungsmodi und bis zu 20-sekündige Clips für Creator, Vermarkter und Entwickler.

Anders als traditionelle Video-KI-Modelle, die stumme Clips generieren und eine separate Audio-Nachbearbeitung erfordern, erzeugt LTX-2 19B in einem einzigen Durchgang vollständige audiovisuelle Erlebnisse. Schritte synchronisieren sich perfekt mit Gehanimationen. Umgebungsklänge entsprechen der visuellen Umgebung. Sprachtöne und Umgebungsgeräusche entstehen natürlich aus Ihrer Texteingabe – ohne Audiobearbeitung erforderlich.

Was ist LTX-2 19B?

LTX-2 19B ist das erste auf DiT basierende (Diffusion Transformer) Audio-Video-Grundmodell, das synchronisierte Sound- und Videogenerierung in einem einheitlichen System kombiniert. Mit 19 Milliarden Parametern stellt es einen grundlegenden architektonischen Wandel in der Art dar, wie KI Multimedia-Inhalte erzeugt.

Von Lightricks im späten 2025 veröffentlicht und inzwischen vollständig open-sourced, wurde LTX-2 bereits als eines der entwicklerfreundlichsten Video-KI-Modelle auf dem Markt anerkannt. Es läuft effizient auf Consumer-GPUs, liefert produktionsreife Ausgaben in Auflösungen bis zu 1080p und – kritisch für WaveSpeedAI-Nutzer – ist über eine gebrauchsfertige REST-API ohne kalte Starts und zu erschwinglichen Pro-Sekunden-Preisen verfügbar.

Das Modell unterstützt flexible Seitenverhältnisse (16:9 Querformat und 9:16 Hochformat), variable Dauern von 5 bis 20 Sekunden und drei Auflösungsstufen (480p, 720p, 1080p), um Qualität, Geschwindigkeit und Kosten auszugleichen.

Wichtige Funktionen, die LTX-2 auszeichnen

Synchronisierte Audio-Video-Generierung

Das definierende Merkmal von LTX-2 ist seine Fähigkeit, Audio zu generieren, das sich natürlich an visuelle Inhalte anpasst. Wenn Sie nach „einem Gewitter über einer Stadtkulisse” fragen, erhalten Sie Blitzlichter und Donnergrollen. Ein „Jazzpianist, der in einem dunklen Club auftritt” erzeugt nicht nur animierte Hände auf den Tasten, sondern auch die Umgebungsgeräusche einer Live-Aufführung.

Das ist nicht Hintergrundmusik, die überlagert wird – es ist kontextbezogenes Audio, das durch denselben Diffusionsprozess generiert wird, der die visuellen Inhalte erzeugt, was zeitliche und semantische Ausrichtung gewährleistet.

Produktionsreife Qualität

LTX-2 19B wurde gegen Top-Konkurrenten wie Sora 2 und Kling 2.6 verglichen. Während Sora 2 bei Fotorealismus für bestimmte Anwendungsfälle führend ist, bietet LTX-2 ein überzeigendes Gleichgewicht: natürlich reaktive Charaktere, zeitlich konsistente Bewegungen und – einzigartig – 20-sekündige Videogenerierung im Vergleich zu Soras 2-sekündiger Obergrenze von 12 Sekunden.

Nach Branchenvergleichen erreicht LTX-2 nahezu Parität mit Sora 2 in visueller Qualität bei etwa 40% niedrigeren Kosten pro Generierung und längeren Ausgabedauern.

Flexible Auflösung und Seitenverhältnisse

Die Implementierung von WaveSpeedAI gibt Ihnen vollständige Kontrolle über das Ausgabeformat:

480p: Schnelle Iteration, niedrigste Kosten – ideal für schnelle Prototypisierung und Tests mehrerer Eingaben
720p: Ausgewogene Qualität und Kosten, geeignet für die meisten Social-Media- und Web-Anwendungsfälle
1080p: Maximales Detail für endgültige Lieferungen, Präsentationen und hochwertige Inhalte

Sie können zwischen 16:9 Querformat (YouTube, Desktop) und 9:16 Hochformat (TikTok, Instagram Reels, Stories) wechseln, um Plattformanforderungen zu erfüllen, ohne zusätzliche Tools zu benötigen.

Variable Dauer-Kontrolle

Generieren Sie Clips von 5 bis 20 Sekunden – lang genug, um einen narrativen Punkt zu etablieren, eine Produktdemonstration zu zeigen oder einen kompletten Social-Media-Clip zu erstellen. Diese erweiterte Dauer unterscheidet LTX-2 von Konkurrenten und reduziert die Notwendigkeit, mehrere Generierungen zusammenzusetzen.

Anwendungsfälle aus der Praxis

Erstellen Sie TikTok-, Reels- und Stories-Videos mit eingebautem Audio in Sekunden. Keine Notwendigkeit für separate Audiobeschaffung, Lizenzierung oder manuelles Synchronisieren. Geben Sie „Skateboarden durch einen neonbeleuchteten Tunnel” ein und erhalten Sie einen kompletten Clip, der zum Hochladen bereit ist.

Produktdemonstrationen

Generieren Sie Werbvideos mit Umgebungsgeräuschen, die die visuelle Erzählung verbessern. Eine Eingabe wie „Kaffee, der in eine Keramiktasse in einer sonnigen Küche gegossen wird” erzeugt Dampf, Bewegung und das Geräusch von Flüssigkeit, die auf Porzellan trifft.

Marketing und Werbung

Produzieren Sie Werbeinhalte mit kohärenter audiovisueller Gestaltung. LTX-2s Fähigkeit, kontextbezogen angemessenes Audio zu generieren, bedeutet, dass Ihre Produktaufnahmen mit passenden Soundlandschaften kommen – ohne Musik-Bibliothek erforderlich.

Prototypisierung und Konzeptualisierung

Visualisieren Sie schnell Ideen für Stakeholder-Reviews. Iterieren Sie bei 480p, um Eingabevariationen zu testen, rendern Sie dann Finals bei 1080p, sobald das Konzept feststeht. Der feste Seed-Parameter gewährleistet Reproduzierbarkeit über Iterationen hinweg.

Content Creator und YouTuber

Generieren Sie B-Roll, Intros oder Erzählsequenzen mit synchronisiertem Sound. Das 20-sekündige Dauer-Fenster ist ideal für Etablierungsaufnahmen, Übergänge oder eigenständige Geschichte-Beats.

Erste Schritte auf WaveSpeedAI

Die Verwendung von LTX-2 19B auf WaveSpeedAI ist unkompliziert:

Navigieren Sie zur Modellseite: https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video
Schreiben Sie Ihre Eingabe: Beschreiben Sie die Szene, Aktion und alle spezifischen Audiohinweise (z. B. „Schritte auf Kies”, „entfernter Donner”, „Jazzpiano”)
Konfigurieren Sie die Einstellungen:
- Auflösung: Wählen Sie 480p (schnelle Iteration), 720p (ausgewogen) oder 1080p (endgültige Qualität)
- Seitenverhältnis: 16:9 für Querformat, 9:16 für Hochformat
- Dauer: 5–20 Sekunden basierend auf Ihren Inhaltsanforderungen
- Seed (optional): Legen Sie einen festen Wert für reproduzierbare Ergebnisse fest
Ausführen: Senden Sie Ihre Anfrage ab und erhalten Sie ein Video mit synchronisiertem Audio – keine Nachbearbeitung erforderlich

WaveSpeedAI kümmert sich um die gesamte Infrastruktur: sofortige kalte Starts, optimierte Inferenz und Pro-Sekunden-Abrechnung. Sie zahlen nur für das, was Sie generieren, mit transparenten Preisen ab $0,06 für einen 480p-Clip von 5 Sekunden.

Python-SDK-Beispiel

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2-19b/text-to-video",
    {
        "prompt": "A golden retriever playing in autumn leaves, slow motion",
        "resolution": "720p",
        "aspect_ratio": "16:9",
        "duration": 10
    },
)

print(output["outputs"][0])  # Video URL with audio

Preise, die sich skalieren

WaveSpeedAI bietet nutzungsbasierte Preise, die sich mit Auflösung und Dauer skalieren:

Auflösung	5s	10s	15s	20s
480p	$0,06	$0,12	$0,18	$0,24
720p	$0,08	$0,16	$0,24	$0,32
1080p	$0,12	$0,24	$0,36	$0,48

Dieses Preismodell ermöglicht es Ihnen, bei niedrigeren Auflösungen frei zu iterieren und hochwertige Renders für endgültige Ausgaben zu reservieren – was sowohl kreative Flexibilität als auch Kosteneffizienz maximiert.

Warum WaveSpeedAI wählen?

WaveSpeedAI bietet die Infrastrukturvorzüge, die Sie für produktive Workflows benötigen:

Keine kalten Starts: Sofortige Inferenz, auch nach längeren Leerlaufzeiten
Schnelle Inferenz: Optimierte GPU-Zuordnung für minimale Wartezeiten
Erschwingliche Preise: Zahlen Sie nur für die Sekunden und Auflösung, die Sie verwenden
REST-API: Einfache Integration in bestehende Workflows, Automatisierungs-Pipelines oder benutzerdefinierte Anwendungen
Transparente Abrechnung: Keine versteckten Gebühren, Abonnement-Stufen oder Compute-Credits

Pro-Tipps für beste Ergebnisse

Seien Sie spezifisch beim Audio: Während Audio automatisch generiert wird, hilft die Beschreibung von Tönen in Ihrer Eingabe („Gewitter”, „Jazzmusik”, „Schritte”) dem Modell, die Generierung zu leiten
Seitenverhältnis der Plattform anpassen: Verwenden Sie 9:16 für vertikale Plattformen (TikTok, Stories), 16:9 für YouTube und Desktop
Iterieren Sie bei 480p: Verfeinern Sie Ihre Eingabe bei niedrigeren Kosten, skalieren Sie dann auf 1080p für endgültige Lieferung
Verwenden Sie feste Seeds: Beim Testen von Eingabevariationen blockieren Sie den Seed, um die Auswirkung Ihrer Änderungen zu isolieren
Kombinieren Sie mehrere Clips: Für längere Inhalte generieren Sie 20-sekündige Segmente und bearbeiten sie in der Nachbearbeitung zusammen

Die Zukunft von audiovisuellem KI

LTX-2 19B stellt einen grundlegenden Wandel in Video-KI dar – von der Generierung stummer Clips zur Herstellung vollständiger audiovisueller Erlebnisse. Als das erste auf DiT basierende Audio-Video-Grundmodell setzt es einen neuen Standard dafür, was Creator von generativen Video-Tools erwarten sollten.

Mit WaveSpeedAI, das sich um die Infrastruktur kümmert, und Lightricks’ Open-Source-Modell, das hochmoderne Generierungsqualität bietet, können Sie sich auf das konzentrieren, das zählt: die Erstellung überzeugender Inhalte.

Probieren Sie LTX-2 19B noch heute aus

Bereit, Ihren ersten synchronisierten Audio-Video-Clip zu generieren? Gehen Sie zur LTX-2 19B-Modellseite auf WaveSpeedAI und beginnen Sie zu erstellen. Ob Sie ein Solo-Creator, ein Marketing-Team oder ein Entwickler, der automatisierte Content-Pipelines aufbaut, LTX-2 19B liefert produktionsreife Ergebnisse zu einem Preis, der sich mit Ihren Anforderungen skaliert.

Generieren Sie jetzt: https://wavespeed.ai/models/wavespeed-ai/ltx-2-19b/text-to-video