WaveSpeedAI LTX 2.3 Text-to-Video jetzt auf WaveSpeedAI verfügbar
LTX-2.3 ist ein DiT-basiertes Audio-Video-Basismodell, das entwickelt wurde, um synchronisierte Videos und Audioinhalte innerhalb eines einzigen Modells zu generieren, mit verbesserter Audio- und Bildqualität
LTX-2.3 Text-to-Video: Synchronisiertes Video und Audio aus einem einzigen Prompt generieren
LTX-2.3 ist ein DiT-basiertes Audio-Video-Grundlagenmodell, das vollständig synchronisiertes Video und Audio aus einem einzigen Text-Prompt generiert — und damit den traditionellen zweistufigen Workflow der getrennten Produktion von Bild und Ton überflüssig macht. Jetzt auf WaveSpeedAI verfügbar, liefert dieses aktualisierte Release schärfere Bilder, reichhaltigeren Ton und eine deutlich verbesserte Prompt-Treue gegenüber seinem Vorgänger — eine überzeugende Wahl für Creators, die produktionsreife Clips ohne den Einsatz mehrerer KI-Tools wünschen.
Für Studios, Marketer und Indie-Creator ist die Botschaft einfach: Eine Szene beschreiben, ein Video erhalten, das bereits richtig klingt.
So funktioniert LTX-2.3 Text-to-Video
LTX-2.3 basiert auf einer Diffusion-Transformer-Architektur (DiT), die gemeinsam auf Video- und Audiodaten trainiert wurde. Anstatt stilles Footage zu erzeugen und den Ton nachträglich einzufügen, produziert das Modell beide Modalitäten in einem einzigen Vorwärtsdurchlauf — sodass Bildschirmereignisse und Audiocues synchron bleiben: Schritte landen auf dem Beat, Regen zischt wenn Regentropfen erscheinen, und dialogähnliche Atmosphäre passt zum visuellen Kontext.
Wichtige technische Spezifikationen für Entwickler:
- Eingabe: Text-Prompt zur Beschreibung von Szene, Bewegung und Audiocues
- Ausgabe: MP4-Video mit eingebettetem synchronisiertem Audio
- Auflösungen: 480p, 720p (Standard), 1080p
- Dauer: 5 bis 20 Sekunden in einer einzigen Generierung
- Einschränkungen: Breite und Höhe durch 32 teilbar; Frameanzahl durch 8 teilbar + 1
- Seed-Kontrolle: Optionaler fester Seed für reproduzierbare Iteration
Im Vergleich zu Text-to-Video-Modellen, die stille Clips ausgeben (Sora-Stil oder frühere Diffusions-Baselines), fasst LTX-2.3 zwei Pipelines — visuelle Synthese und Audiogenerierung — in einem Grundlagenmodell zusammen. Das bedeutet geringere Latenz, niedrigere Kosten und keine manuelle Synchronisierungsarbeit in der Post-Production.
Möchten Sie es testen? LTX-2.3 Text-to-Video auf WaveSpeedAI ausprobieren und Ihren ersten Clip in unter einer Minute generieren.
Hauptfunktionen von LTX-2.3 Text-to-Video
- Synchronisiertes Audio-Video in einem Durchlauf — Kein separater Sounddesign-Schritt. Das Modell generiert passende Atmosphäre, Effekte und atmosphärisches Audio als Teil desselben Diffusionsprozesses.
- Verbesserte Prompt-Treue gegenüber LTX-2 — Das Update 2.3 verbessert die Ausrichtung zwischen detaillierten Prompts und gerenderten Szenen, sodass komplexe Beschreibungen zuverlässiger auf dem Bildschirm umgesetzt werden.
- Drei Auflösungsstufen (480p / 720p / 1080p) — Günstig bei 480p iterieren, dann für die finale Lieferung auf 1080p hochskalieren, ohne Prompt oder Workflow ändern zu müssen.
- Variable Clip-Länge bis zu 20 Sekunden — Lang genug für Anzeigenlesungen, Social-Hooks und kurze narrative Beats; kurz genug für schnelle Generierungen.
- DiT-basiertes Grundlagenmodell — Die Diffusion-Transformer-Architektur liefert zeitlich konsistente Bewegung und hochauflösende Texturen, besonders bei dynamischen Szenen.
- Produktionsreife REST API — Auf WaveSpeedAI verfügbar ohne Cold Starts, vorhersehbare Latenz und Pay-per-Use-Preisgestaltung.
- Reproduzierbare Ausgaben mit Seed-Kontrolle — Seed fixieren, um Prompt-Varianten per A/B-Test zu vergleichen, ohne dass zufällige Varianz stört.
Beste Anwendungsfälle für LTX-2.3 Text-to-Video
Social-Media-Content in großem Maßstab
Kurzform-Plattformen belohnen Geschwindigkeit und Audio. LTX-2.3 ermöglicht Creators, 10–15-sekündige TikTok-, Reels- und Shorts-Clips mit integriertem Sounddesign zu veröffentlichen — kein Suchen nach lizenzfreier Musik, kein Audacity-Timeline-Editing. „Neonbeleuchtete Tokioter Straße, Regen trifft Pfützen, entfernter Jazz, langsames Dolly vorwärts” eingeben, und das Modell liefert einen verwendbaren Beitrag.
Marketing und Performance-Anzeigen
Performance-Marketer müssen wöchentlich Dutzende kreativer Varianten testen. Mit LTX-2.3 kann eine Agentur eine vollständige Anzeige in 720p für 0,30 $ pro 10-Sekunden-Spot generieren, Text oder Szenenbeschreibungen austauschen und kreative Konzepte schneller iterieren als jede traditionelle Produktionspipeline. Synchronisiertes Audio bedeutet, dass jede Variante sofort werbenetztauglich ist.
Storyboarding und Pre-Visualisierung
Filmregisseure und Animatoren können schriftliche Szenen in lebendige Previz mit passender Atmosphäre verwandeln. Eine Szene aus einem Drehbuch beschreiben — „Wind heult über einen Wüstenrücken, Reiter galoppiert an der Kamera vorbei, Krähe ruft darüber” — und den resultierenden Clip nutzen, um Kameraleute, Editoren und Kunden vor dem eigentlichen Drehtag abzustimmen.
Produkt-Demos und Erklärvideos
SaaS- und Hardware-Teams können Video-Erklärvideos prototypisieren, ohne Studios zu buchen. Den Produktkontext, die Bewegung und die Umgebungseinstellung beschreiben und LTX-2.3 nutzen, um B-Roll-Hintergründe zu generieren, die bereits poliert klingen — perfekt für Landing Pages, Onboarding-Flows und Pitch-Decks.
Spiele-Trailer und cinematische Konzepte
Indie-Spielestudios können schnell Trailer-Cuts und atmosphärische Konzeptvideos erstellen. Das synchronisierte Audio ist hier besonders wertvoll: Ein 10-sekündiger Waldüberfall-Clip mit Blätterrascheln, Schwertkampf und Vogelflatter vermittelt den Ton eines Spiels weit besser als stilles Footage.
Musik- und Stimmungsvisualisierer
Musiker und Lo-Fi-Creator können stimmungsvolle Loops generieren — „Regen auf einem Fenster, sanftes Klavier, langsamer Zoom auf eine Kaffeetasse” — für Streaming-Visualizer, Livestream-Hintergründe und Social Posts.
Bildungs- und Narrativinhalte
Pädagogen und Geschichtenerzähler können schriftliche Inhalte zum Leben erwecken. Ein Kinderbuchautor kann animierte Lesungen prototypisieren; ein Geschichtskanal kann szenensetzende Momente illustrieren, ohne Archivmaterial lizenzieren zu müssen.
LTX-2.3 Preise und API-Zugang
LTX-2.3 verwendet transparente Pay-per-Use-Preise, die nach Auflösung und Dauer skalieren:
| Auflösung | 5s | 10s | 15s | 20s |
|---|---|---|---|---|
| 480p | 0,10 $ | 0,20 $ | 0,30 $ | 0,40 $ |
| 720p | 0,15 $ | 0,30 $ | 0,45 $ | 0,60 $ |
| 1080p | 0,20 $ | 0,40 $ | 0,60 $ | 0,80 $ |
Das macht einen fertigen, audio-inklusive 1080p-20-Sekunden-Clip für nur 0,80 $ — ein Bruchteil der typischen Kosten für Stock-Footage-Lizenzierung oder freiberufliche Videoproduktion.
LTX-2.3 über die WaveSpeedAI API aufrufen
import wavespeed
output = wavespeed.run(
"wavespeed-ai/ltx-2.3/text-to-video",
{
"prompt": "A golden retriever runs through a sunlit meadow, paws thumping the grass, birds chirping overhead, gentle wind",
"resolution": "720p",
"duration": 10,
},
)
print(output["outputs"][0])
WaveSpeedAI-Vorteile für Entwickler:
- Keine Cold Starts — Latenz beim ersten Aufruf entspricht der Steady-State-Latenz
- REST API — Sprachunabhängig, in jeden Stack integrierbar
- Pay-per-Use — Keine Mindestumsätze, keine Leerlauf-GPU-Kosten
- Produktionsreife Betriebszeit — Entwickelt für Hochdurchsatz-Inferenz-Workloads
Einen API-Schlüssel holen und mit LTX-2.3 entwickeln.
Tipps für beste Ergebnisse mit LTX-2.3 Text-to-Video
- Audio explizit beschreiben — Das Modell generiert Ton automatisch, aber die Angabe von „Regen”, „Jazzklavier”, „jubelnde Menge” oder „Schritte auf Kies” gibt Ihnen stärkere Kontrolle über den Audiotrack.
- Bewegung beschreiben, nicht nur Szenerie — Kamerabewegungen („langsames Dolly hinein”, „Handkamera-Tracking-Shot”), Subjektbewegung und Tempocues liefern cinematischere Ergebnisse als statische Beschreibungen.
- Bei 480p iterieren, bei 1080p rendern — Die günstigste Stufe nutzen, um den Prompt zu verfeinern, dann die Auflösung erhöhen, sobald die Komposition feststeht. Einen festen Seed verwenden, um Änderungen aussagekräftig zu halten.
- Prompts auf einen Beat beschränken — Ein 10-Sekunden-Clip kann nur ein oder zwei narrative Momente tragen. Mehrszenen-Skripte nicht in einen einzigen Prompt packen.
- Längere Videos in der Post-Production schneiden — Für Inhalte über 20 Sekunden mehrere LTX-2.3-Clips generieren und in Ihrem NLE zusammenfügen.
- Seed-Fixierung für A/B-Tests nutzen — Beim Vergleich zweier Prompt-Varianten denselben
seedsetzen, um Prompt-Änderungen von Rauschvarianz zu isolieren.
Für animierten Content aus vorhandenem Artwork LTX-2.3 mit LTX-2.3 Image-to-Video kombinieren, um einen konsistenten Stil über eine Kampagne hinweg zu gewährleisten.
Häufig gestellte Fragen
Was ist LTX-2.3 Text-to-Video?
LTX-2.3 ist ein DiT-basiertes Audio-Video-Grundlagenmodell, das synchronisiertes Video und Audio aus einem Text-Prompt in einem einzigen Durchlauf generiert und über eine REST API auf WaveSpeedAI verfügbar ist.
Was kostet LTX-2.3?
Die Preise beginnen bei 0,10 $ für einen 5-sekündigen 480p-Clip und skalieren bis 0,80 $ für einen 20-sekündigen 1080p-Clip — abgerechnet pro Generierung ohne erforderliches Abonnement.
Kann ich LTX-2.3 über eine API verwenden?
Ja. LTX-2.3 ist über die WaveSpeedAI REST API ohne Cold Starts verfügbar. Einen Prompt, eine Auflösung und eine Dauer übermitteln und eine Video-URL mit eingebettetem Audio erhalten.
Generiert LTX-2.3 automatisch Audio?
Ja — Audio wird gemeinsam mit Video im selben Modell-Durchlauf produziert. Sie können das Modell Audio aus dem visuellen Kontext ableiten lassen oder Töne explizit in Ihrem Prompt beschreiben, um eine engere Kontrolle zu haben.
Wie lang können LTX-2.3-Videos sein?
Jede Generierung unterstützt 5 bis 20 Sekunden. Für längere Videos mehrere Clips generieren und diese in der Post-Production zusammenschneiden.
Noch heute mit LTX-2.3 Video und Audio generieren
LTX-2.3 fasst Videosynthese und Audioproduktion in einem kosteneffizienten, hochwertigen Modell zusammen — perfekt für Marketer, Creator und Entwickler, die schnelle, fertige Clips benötigen, ohne separate Tools jonglieren zu müssen.


