LTX-2.3: Was ist neu im 22B-Videomodell von Lightricks (2026)

Hallo zusammen, ich bin Dora. Eine Kleinigkeit hat mich letzte Woche dazu gebracht,  LTX‑2.3 auszuprobieren: ein 4-sekündiger Clip, bei dem Reißverschlüsse immer wieder in den Stoff zu schmelzen schienen. Ich war nicht auf der Suche nach einem neuen Modell. Ich wollte einfach nur, dass die Reißverschlüsse wie Reißverschlüsse aussehen, ohne eine Stunde herumzufummeln. Also habe ich mir einen Abend freigenommen und eine Handvoll derselben Prompts und Audio-Cues durchgespielt, die ich seit LTX‑2 verwende. Meine Notizen unten sind keine Funktionsübersicht. Es sind die Stellen, an denen das Release meinen Alltag tatsächlich verändert hat – und die Stellen, an denen es das nicht getan hat.

LTX-2 vs. LTX-2.3 auf einen Blick

Hier ist der Überblick, den ich mir gewünscht hätte, bevor ich angefangen habe. Ich teile, was ich beobachtet habe und was in den Release-Notes steht. Wenn etwas ungefähr wirkt, ist das Absicht.

Parameter	~10–14B (vorherige Modellgröße)	~22B (vom Anbieter angegeben: größerer Kontext)
VAE	Standard-VAE: weichere Mikrodetails	Neuer hochauflösender VAE: schärfere feine Kanten, sauberere Verläufe
Text-Encoder	Solide Prompt-Befolgung: etwas Unschärfe bei kleinen Objekten	Überarbeitung mit besserem Grounding kleiner Objekte und Stilübertragung
Audio	Einfaches Audio-Conditioning: gelegentliche Phasierung/Wabern	Überarbeiteter Audio-Layer: saubereres Conditioning, weniger Artefakte
Basis/Ausgabe	Stabil bei 720p-Basis: Hochformat-Unterstützung per Workaround	Natives 9:16-Hochformat: gleiche Basis, aber bessere Upscaler
Neu	/	Audio-zu-Video-Verbesserungen, räumliche + zeitliche Upscaler, 24/48 FPS-Optionen

Zwei schnelle Erkenntnisse aus dieser Tabelle: Das VAE-Upgrade ist der stille Held für Visuals, und der Audio-Stack wirkt weniger fragil. Der Parameter-Sprung hilft bei der Konsistenz, behebt aber nicht wie von Zauberhand die Storyboard-Logik oder exakte Typografie.

Neuer VAE – Was schärfere Feindetails für die Ausgabe bedeuten

Bei LTX‑2 habe ich oft gesehen, wie feine Texturen zwischen Frames „geatmet” haben – Stoffkörnung, die in Frame 12 richtig aussah und bis Frame 17 verwischt war. Mit dem neuen VAE von LTX‑2.3 halten Kanten und Mikrotexturen besser zusammen. Der Unterschied ist nicht neonschild-offensichtlich: Es ist die Abwesenheit kleiner Ärgernisse.

In der Praxis:

Haarlinien und Wimpern verklumpen bei zunehmender Bewegung nicht mehr so schnell.
Chromkanten behalten ein engeres Highlight, ohne aufzublähen.
Verläufe in Himmeln und Schatten zeigen weniger Banding.

Das hat mir zunächst keine Zeit gespart – ich habe trotzdem meine üblichen Denoise- und Seed-Durchläufe gemacht. Aber nach drei Durchläufen habe ich aufgehört, manuelle Cleanup-Masken für Schmuck und Reißverschlüsse zu machen. Das ist „Zeitersparnis” auf eine langsame, kumulative Art: vielleicht 6–8 Minuten pro 10-Sekunden-Clip.

Vorbehalt: Es kann auch Überschärfung hervorrufen, wenn man kontrastreiche Prompts pusht. Ich habe die Guidance in diesen Fällen etwas reduziert (etwa 5–10 %), um knusprige Frames zu vermeiden.

Wo man den Unterschied sieht (Gesichter, Texturen, kleine Objekte, Chrom)

Ich habe den Testsatz eng gehalten: drei Prompts, die ich auswendig kenne, mit denselben Seeds in der Woche vom 18.–24. März.

Gesichter: Poren, feine Babyhaare und Augenwinkel überstehen Bewegung besser. Standardmäßig wirkt es weniger wie ein „Beauty-Filter”. Ich hatte gelegentlich noch ein unheimliches Lächeln, wenn ich den Prompt zu stark eingeschränkt habe, aber insgesamt weniger wachsartige Wangen.
Texturen: Denim, Leinen, gebürsteter Stahl. Diese haben sich am stärksten verbessert. Das Modell respektiert das Webmuster, ohne zu pulsieren. Bei LTX‑2 hatte ich manchmal alle ~8–10 Frames einen „Texturdrift”. Das ist größtenteils verschwunden.
Kleine Objekte: Uhrzeiger, Knöpfe, Schrauben. Sie behalten ihre Form länger, bevor sie in ihrer Umgebung schmelzen. Nicht perfekt, aber weniger Schnittsprünge, bei denen eine Schraube zum Fleck wird.
Chrom und Spiegelungen: Highlights blühen weniger auf. Ich bemerkte engere Roll-offs bei reflektierenden Felgen und Wasserhähnen, was den Frame davor bewahrt, überbearbeitet auszusehen.

Wo es die Nadel nicht bewegt hat: detaillierter gedruckter Text in der Szene (Etiketten, Beschilderung) ist immer noch unzuverlässig. Wenn klarer, lesbarer Text entscheidend ist, würde ich ihn immer noch nachträglich einkomponieren.

Überarbeiteter Audio-Layer: Sauberere Generierung, weniger Artefakte

Audio-konditionierte Generierungen wirken stabiler. Bei LTX‑2 konnte ich ein leichtes Phasieren oder Wabern hören, wenn ich auf rhythmische Cues gesetzt habe. Mit 2.3 ist das seltener. Ich habe einen 120 BPM-Click mit einem drohnenden Pad getestet, und dann einen gesprochenen Guide-Track.

Was sich für mich verändert hat:

Beat-ausgerichtete Bewegung ist konsistenter, ohne die Belichtung zu „ducken”, um dem Kick zu folgen.
Mehr Atemraum um Sibilanten im Voiceover, weniger Rauschen, das früher Frames verwischte.
Weniger hörbare Artefakte, die in Exporte eingebacken wurden. Bei älteren Durchläufen hörte ich manchmal ein Gespenst des Conditionings im Render. Das ist in meinen Tests verschwunden.

Grenzen: Es ist immer noch keine frame-genaue Motion-to-Hit-Ausrichtung. Wenn man perfekte Beat-Marker braucht, muss man in der Post-Production trimmen.

Wofür Audio-zu-Video (nicht) gut ist

Audio-zu-Video in 2.3 eignet sich gut zum Formen von Energie und Pacing. Es eignet sich nicht für Lippensync oder präzise Choreografie.

Wo es mir geholfen hat:

Ambient-Reels, bei denen Stimmung auf Musikschwellungen folgt. Das Modell „atmet” mit dem Track, anstatt die Belichtung zu pumpen.
Produktclips mit weichen Whooshes – Übergänge fühlen sich geführt an, nicht zufällig.

Wo es nicht geholfen hat:

Lippensync zu einem Monolog. Mundformen driften immer noch. Ich würde mich darauf für sprechende Köpfe nicht verlassen.
Exakte Beat-Schnitte oder Tanzschritte. Es ist nah genug für die Stimmung, nicht für exakte Zählungen.

Ich verwende es also als Gerüst-Layer: Bewegungsgefühl aus Audio holen, dann Schnitte in einem echten NLE fixieren.

Hochformat 9:16 und neue Bildrate-Optionen (24 / 48 FPS)

Natives 9:16-Hochformat hat endlich meine umständliche Beschneide-Kette beseitigt. Vertikale Kompositionen wirken beabsichtigter – Framing, nicht nur Zuschnitt. Ich habe eine Café-Sequenz erneut durchgespielt, die ich bei LTX‑2 aufgenommen hatte (aus dem Querformat beschnitten), und der vertikale 2.3-Durchgang gab mir eine sauberere Kantendisziplin um Hände und Tassen.

Zu den Bildraten:

24 fps: Bewegung fühlt sich filmisch an, kann aber bei schnellen Schwenks stroboskopieren. Immer noch mein Standard für narrative Stimmungen.
48 fps: Flüssigere Bewegung ohne den Seifenopern-Look, den ich befürchtet hatte. Nützlich für Produktrotationen und Makrodetails, besonders in Kombination mit den neuen Upscalern.

Eine kleine Reibungsstelle: 48 fps verdoppelt den Überprüfungsaufwand. Ich habe angefangen, kurze Segmente für Kontrollen zu exportieren, sonst würde ich kleine Artefakte übersehen, die sich zwischen Frames verstecken.

Räumliche und zeitliche Upscaler: Wie sie zusammenarbeiten

Früher habe ich räumlich in einem separaten Tool hochskaliert und zeitliches Wackeln als Preis akzeptiert. Die gekoppelten Upscaler von LTX‑2.3 reduzieren diesen Kompromiss.

So habe ich es durchgeführt:

Bei einer komfortablen Basis generieren (etwa 720p), Bewegung genehmigen.
Räumlicher Upscaler zum Anheben von Details.
Zeitlicher Upscaler zur Stabilisierung über Frames hinweg.

Was ich bemerkt habe:

Zeitliches zuletzt zu machen, vermeidet das alte „wunderschöne Einzelframes, ruckelige Sequenz”-Problem.
Das Paar spart 1–2 Durchläufe in meiner Pipeline. Ich habe aufgehört, für die meisten Clips zu externen Denoisern zu wechseln.
Fehlerfall: Wenn die Basisbewegung bereits chaotisch ist, kann zeitliches Upscaling Mikrobewegungen verwischen. Ich habe das behoben, indem ich die Bewegungsstärke vor dem Upscaling etwas reduziert habe.

Es ist keine Magie, aber der „systemfreundlichste” Teil des Releases für mich.

22B-Skalierung: Was der Parameter-Sprung verändert (und was nicht)

Größere Modelle können mehr Kontext speichern und besser generalisieren. Das zeigte sich hier als stabilere Objektpersistenz über 6–10 Sekunden und etwas bessere Befolgung von Mehrklausel-Prompts.

Veränderungen, die ich gespürt habe:

Weniger Objektwechsel in der Mitte einer Sequenz (der rote Becher bleibt länger rot).
Stil-Anweisungen werden zuverlässiger durchgehalten.

Was es nicht behebt:

Komplexe räumliche Logik (z.B. „Kamera fährt hinter dem Stuhl vorbei und enthüllt dann einen Spiegel, der zeigt…”). Man braucht immer noch sorgfältiges Prompting und manchmal einen Storyboard-Durchgang.
Perfektes Text-Rendering in der Szene. Immer noch mühsam.

Kosten:

Höhere VRAM-Anforderungen und längere First-Token-Latenz. Meine lokale Maschine (24 GB VRAM) hat kurze Durchläufe bei Basis-Auflösung bewältigt – alles Ambitioniertere benötigte Tiling oder Offload.
Etwas längere Aufwärmzeiten. Nicht enorm, aber merklich, wenn man schnell iteriert.

Wer jetzt aufhorchen sollte

Entwickler (Tools, Nodes, benutzerdefinierte Workflows): Der neue VAE und die Upscaler sind integrationswürdig. Sie beseitigen zwei häufige „Warum wackelt das?”-Support-Tickets. Wenn man Presets ausliefert, sollte man konservative Guidance-Standardwerte in Betracht ziehen, um überschärfte Looks zu vermeiden.
Produktteams: Audio-Konsistenz und 9:16-Unterstützung reduzieren die Reibung für Social-Output. Wenn die eigenen Nutzer eher auf Reels setzen, ist 48 fps + zeitliches Upscaling ein ruhiges Upgrade. Lippensync nicht zu sehr versprechen – der ist noch nicht ausgereift.
Kreative: Wenn man mit Texturdrift gekämpft hat oder den Beschneide-auf-Vertikal-Workflow gehasst hat, ist 2.3 ein Quality-of-Life-Release. Wenn man auf perfekten Text oder wasserdichte Story-Logik gehofft hat, kann man getrost warten.

Meine kurze Bilanz: Weniger Cleanup-Masken, weniger externe Zwischenstopps. Das ist nicht glamourös, aber ich nehme es.

FAQ

Was sind die VRAM-Anforderungen für LTX-2.3 lokal?

Was ich verwendet habe: 24 GB haben kurze Basis-Auflösungs-Generierungen (etwa 720p) mit Spielraum für kleine Batches bewältigt. Für 1080p oder längere Clips brauchte ich Tiling und gelegentliches CPU-Offloading. Bei 12–16 GB sind langsamere Durchläufe und engere Grenzen zu erwarten. Der genaue Bedarf variiert je nach Sampler, Kontextlänge und ob beide Upscaler aktiviert sind.

Wer neu im Bereich Speicheroptimierung ist, findet in PyTorchs Hinweisen zum CUDA-Speichermanagement eine hilfreiche Einführung.

Ist LTX-2.3 rückwärtskompatibel mit bestehenden LTX-2-ComfyUI-Workflows?

Größtenteils ja, im Prinzip, aber ich musste Nodes für den neuen VAE austauschen und die Guidance anpassen. Meine älteren LTX‑2-ComfyUI-Graphen ließen sich laden, monierten dann aber ein paar veraltete Felder. Zehn Minuten Node-Bereinigung haben das behoben. Wer in Comfy baut, sollte auf den Modell-Loader und VAE-Nodes achten. Das Haupt-Repository von ComfyUI ist hier, wenn man Referenzen braucht: ComfyUI auf GitHub.

Ist LTX-2.3 kommerziell nutzbar?

Ich bin kein Anwalt. Ich habe die Lizenz in den Release-Notes überprüft, und sie sah standardmäßig für kommerzielle Nutzung mit den üblichen Einschränkungen aus (Attribution/akzeptable Nutzung). Wenn das Projekt Risiken birgt – Markenkampagnen, Broadcast –, sollte man die Lizenz Zeile für Zeile lesen und eine lokale Kopie speichern.

Ist die API beim Launch verfügbar?

Ich habe während der Tests lokale Durchläufe und einen gehosteten Endpunkt verwendet. Die gehostete API war in den Notes als verfügbar gekennzeichnet, mit einigen Kontingenten. Wenn man auf API-Funktionen angewiesen ist (Webhooks, Retries, Long-Run-Jobs), sollte man diese in den offiziellen Docs vor dem Einsatz in Pipelines überprüfen.

Unterstützt LTX-2.3 LoRA-Fine-Tuning?

Ich habe LoRA-Hooks ähnlich wie bei LTX‑2 gesehen, mit einem Kompatibilitätshinweis zum aktualisierten Text-Encoder. In der Praxis ließen sich meine alten LoRAs laden, mussten aber neu abgestimmt werden (Stärke etwas reduzieren, um Overfitting-Artefakte zu vermeiden). Wer auf Fine-Tunes angewiesen ist, sollte Zeit für eine Neukalibrierung einplanen.

Ich habe damit angefangen wegen eines Reißverschlusses. Ich beende es mit weniger Cleanup-Durchläufen und einem Crop-Hack weniger. Nicht dramatisch, einfach…leichter. Das reicht mir für diese Runde.