← Blog

LTX-2.3 Hochformat-Video-Guide: 9:16-Workflows für Social Media & Mobile (2026)

LTX-2.3 generiert nativ 9:16-Hochformatvideos bis zu 1080×1920 – ganz ohne Zuschneiden. So konfigurieren, prompten und produzieren Sie 2026 social-ready vertikale Clips in Stapelverarbeitung.

8 min read
LTX-2.3 Hochformat-Video-Guide: 9:16-Workflows für Social Media & Mobile (2026)

Hallo, ich bin Dora!

Ich habe auf ein Videomodell gewartet, das das Hochformat als erstklassiges Format behandelt – nicht als nachträglichen Einfall. Die meisten Tools generieren noch immer Querformat und lassen dich dann zuschneiden. LTX-2.3 ändert das — es generiert vertikale Videos bis zu 1080×1920, trainiert auf Hochformat-Daten, nicht aus dem Querformat zugeschnitten. Für Social-Media-Teams, die TikTok- und Reels-Workflows betreiben, ist dieser Unterschied wichtiger, als er klingt.

Warum native Hochformat-Unterstützung wichtig ist (im Vergleich zu Crop-from-Landscape)

Was „auf Hochformat-Daten trainiert” für die Ausgabequalität bedeutet

Wenn ein Modell im 16:9-Format generiert und du auf 9:16 zuschneideist, hat es nicht für die vertikale Komposition gearbeitet. Motive landen off-center, der Himmel füllt das untere Drittel, und Bewegungsverläufe fühlen sich auf einem Smartphone-Bildschirm falsch an.

LTX-2.3 ist sowohl als Open-Source-Modell als auch über die LTX API verfügbar, wobei die Hochformat-Unterstützung fest in die Trainings-Pipeline eingebaut ist – nicht nachträglich hinzugefügt. Das Modell hat während des Trainings vertikale Kompositionen gesehen, was bedeutet, dass Motivplatzierung, Bewegungsbögen und Kamerabewegungen alle auf die Betrachtung im Hochformat kalibriert sind.

Die 9:16-Hochformat-Unterstützung liefert deutlich verbesserte Qualität für vertikale Hochformat-Videos, perfekt für Social Media und Mobilgeräte. Das ist keine Marketingsprache – es ist ein struktureller Unterschied darin, wie die Modellgewichte mit seitenverhältnisspezifischen räumlichen Beziehungen umgehen.

Auflösungs- und Bildrate-Einstellungen für 9:16

1080×1920-Konfiguration in ComfyUI und über API

Der praktische Standard ist 720p (736×1280) für 9:16. Wenn du eine leistungsstarke GPU wie eine RTX 5090 oder besser hast, probiere 1088×1920 für volle 1080p-Qualität.

In ComfyUI mit den offiziellen LTXVideo-Nodes setze deinen Auflösungsknoten auf 768×1280 für eine gute VRAM/Qualitäts-Balance auf einer 24-GB-Karte. Für API-Nutzer akzeptiert die LTX-API-Dokumentation aspect_ratio: "9:16" neben deinem Auflösungsparameter — manuelle Dimensionsberechnung erforderlich.

Über API (minimale Konfiguration):

model: ltx-2-3-pro
resolution: 1080p
aspect_ratio: 9:16
fps: 24

24 vs. 48 FPS für Social-Plattformen: Was verwenden?

LTX-2.3 hat 24/48 FPS als neue Bildraten-Optionen neben den bestehenden 25/50 FPS eingeführt.

Für Social: verwende 24fps für die meisten Inhalte. TikTok und Reels transkodieren beide beim Upload, und 24fps gibt dir den meisten Spielraum, ohne die Dateigröße aufzublähen. Encode einmal mit 48fps und konvertiere später herunter, wenn nötig – das gibt dir die meiste Flexibilität in der Post-Produktion. Spare 48fps für Inhalte auf, bei denen Bewegungsflüssigkeit ein Verkaufsargument ist (Tanz, Produktenthüllungen, Zeitlupen-Emulation).

Prompting für vertikale Komposition

Vertikale Rahmungssprache

Das Modell reagiert auf Rahmungssprache. Für Hochformat-Ausgabe beginne mit Orientierungshinweisen, bevor du das Motiv beschreibst:

  • vertikaler Rahmen, Nahaufnahme Porträt, Motiv in der oberen Hälfte zentriert...
  • Smartphone-Bildschirm-Komposition, ganzkörperlicher vertikaler Shot, negativer Raum unten...
  • weit geöffnete Establishing-Shot, panoramische Landschaft... (zieht in Richtung horizontaler Komposition)

Motivplatzierung und Vermeidung von Querformat-Bias-Ausgaben

Auch mit nativem Hochformat-Training kann das Modell zu horizontalen Kompositionen abdriften, wenn mit Weitwinkel-Szenensprache geprompted wird. Wenn dein Motiv immer wieder zur Mitte-breit statt zur oben-vertikal-Position driftet: füge explizite vertikale Anker hinzu wie hoher Rahmen, vertikaler negativer Raum oder Hochformat-Ausrichtung, Gesicht im oberen Drittel.

Für Talking-Head- oder Avatar-Inhalte merkt WaveSpeed’s LTX-2.3-Implementierung an, dass Hochformat-Clips am besten funktionieren, wenn du Bewegung relativ zu einer vertikalen Achse beschreibst — Kamerakippungen, vertikale Schwenks und aufsteigende Aufnahmen verstärken alle den hohen Rahmen.

Audio in Hochformat-Workflows: Was einbeziehen und was überspringen

Wann natives Audio für Social einen Mehrwert bietet (Ambiente, Sound-on-Inhalte)

Soundeffekte, Umgebungsgeräusche und Dialoge werden ab der Generierung synchronisiert — ein dedizierter Audio-zu-Video-Endpunkt ermöglicht es dir, einen Audioclip bereitzustellen und passende Visuals zu generieren.

Nutze natives Audio, wenn: dein Inhalt Sound-on ist (Ambiente-Szenen, Naturclips, Crowd-Energie). LTX-2.3s Audio-Verbesserungen machen atmosphärischen Sound wirklich nutzbar ohne Nachbearbeitung — reduzierte Artefakte, saubererer Dialog.

Wann Audio überspringen und in der Post hinzufügen

Überspringe natives Audio für voiceover-geführte Inhalte, Musiksynchronisation, Markensound oder alles, was präzises Audio-Editing erfordert. Generiere nur Video und schichte dann Audio in deinem NLE. Die Pro-Variante ist für Audio-zu-Video-, Retake- und Extend-Endpunkte erforderlich — wenn du nur Video für einen Musiktrack generierst, den du in der Post hinzufügst, spart die Fast-Variante Kosten und Zeit.

Batch-Produktions-Workflow für Social-Teams

Storyboard-zu-Clip-Pipeline für hohe Ausgabevolumina

Für Teams, die täglich 20+ Clips generieren, ist die praktische Pipeline:

  1. Skript → Storyboard mit hochformatspezifischen Rahmungsnotizen pro Shot
  2. Batch-Prompts über LTX API — die API ist zustandslos, sodass parallele Anfragen unabhängig laufen
  3. QC-Durchgang — Motiv-Drift oder Querformat-Bias-Ausgaben für die Regeneration markieren
  4. Audio-Ebene in der Post, wenn musikgeführt

Fast-Variante für Entwürfe, Pro für Finalversionen

Beginne mit Fast, um Kompositionen schnell zu erkunden, dann wechsle für das finale Rendering zu Pro. Fast ist für Geschwindigkeit und niedrige Kosten optimiert — am besten für schnelles Prototyping, Brainstorming, Storyboarding und schnelle Iteration. Pro liefert höhere Wiedergabetreue mit besserer Bewegungsstabilität und visuellen Details.

Typisches Batch-Kostenmuster: 10 Fast-Entwürfe ausführen, um Komposition und Timing festzulegen, dann ein Pro-Render für die Lieferung. Das reduziert die Iterationskosten um etwa 60% im Vergleich zum durchgehenden Einsatz von Pro.

Extend-Video für längere Sequenzen ohne Neugenerierung

Der v1/extend-Endpunkt verlängert die Videodauer durch Generierung zusätzlicher Frames. Für Hochformat-Sequenzen länger als 8–10 Sekunden verlängern statt neu generieren — es bewahrt die Motiv-Konsistenz über den verlängerten Clip hinweg. Setze ein Kontextfenster von 2–3 Sekunden vom Clip-Ende für die glatteste Naht.

Einschränkungen und häufige Fehler

Motiv-Drift in langen vertikalen Clips

Jenseits von 12–15 Sekunden können Hochformat-Clips Motiv-Drift zeigen — das Modell verschiebt die Motivposition allmählich zur Bildmitte. Abhilfe: Verwende Extend-Video in kürzeren Segmenten (8s + 8s) statt einer 16-Sekunden-Generierung.

Wann zugeschnittenes und verfeinertes Querformat immer noch besser ist als natives Hochformat

Natives Hochformat ist nicht immer die richtige Wahl. Für Weitwinkel-Action-Inhalte (Sport, Crowd-Szenen, Fahrzeug-Aufnahmen) liefert die Querformat-Generierung gefolgt von einem intelligenten Zuschnitt immer noch bessere horizontale Komposition und natürlichere Bewegung. Das Modell funktioniert am besten bei Breitbild-Seitenverhältnissen wie 16:9 oder 21:9 — Hochformat kann bei einigen Inhaltstypen verzerrte Ergebnisse liefern. Teste beide Ansätze, bevor du dich für jeden Inhaltstyp auf Hochformat festlegst.

Das ComfyUI-LTXVideo GitHub-Repository enthält Referenz-Workflows für beide Wege — nützlich für einen Side-by-Side-Vergleich, ohne Nodes von Grund auf neu aufzubauen.

FAQ

F1: Was ist die maximale Auflösung für die LTX-2.3-Hochformat-Ausgabe?

LTX-2.3 unterstützt Text-zu-Video-, Bild-zu-Video- und Audio-zu-Video-Generierung bis zu 1080p, einschließlich nativem Hochformat (9:16)-Video. In der Praxis ist 1080×1920 die Obergrenze für Hochformat. Für die meisten Social-Workflows ist 720p (736×1280) der praktische Standard — es ist schneller, günstiger, und Plattformen transkodieren sowieso.

F2: Erfordert der Hochformat-Modus andere LoRAs als das Querformat?

Nein. LTX-2.3 unterstützt LoRA-Feinabstimmung, sodass du das Modell für bestimmte Stile, Charaktere oder Anwendungsfälle anpassen kannst. LoRAs, die auf Querformat-Daten trainiert wurden, übertragen sich im Allgemeinen auf die Hochformat-Generierung — das Rahmungsverhalten wird durch dein Prompt und die Auflösungseinstellungen gesteuert, nicht durch die LoRA-Gewichte selbst. Das heißt, LoRAs, die auf hochformatspezifischen Daten trainiert wurden, produzieren konsistentere vertikale Kompositionen.

F3: Wie vergleicht sich die LTX-2.3-Hochformat-Qualität mit Kling für Social-Inhalte?

Direkte Benchmarks variieren je nach Inhaltstyp. LTX-2.3s Vorteil sind offene Gewichte, API-Zugang und natives Hochformat-Training — Kling bleibt nur über die Cloud verfügbar mit weniger Transparenz bezüglich der Trainingsdaten. Für ambiente und szenengetriebene Hochformat-Inhalte ist LTX-2.3 bei 1080p wettbewerbsfähig. Für stark stilisierte menschliche Motive hat Klings geschlossenes Modell in einigen Kategorien noch einen Vorsprung. Teste mit deinem spezifischen Inhaltstyp, bevor du eine Entscheidung triffst.

F4: Kann ich Hochformat-Clips per API batch-generieren?

Ja. Die LTX API ist für reale Workloads mit vorhersehbarer Leistung bei jedem Volumen ausgelegt — stabile Ausgaben, konsistente Wiedergabetreue und infrastrukturgerechte Zuverlässigkeit. Hochformat- und Querformat-Anfragen verwenden denselben Endpunkt. Füge aspect_ratio: "9:16" zu deinem Anfrage-Body hinzu. Siehe das LTX-API-Changelog für aktuelle Parameterspezifikationen.

F5: Unterstützt die LTX-Desktop-App die Hochformat-Generierung?

LTX Desktop ist ein vollständiger Videoeditor, der auf der LTX-2.3-Engine basiert, lokal auf deiner Hardware läuft mit offenen Gewichten und ohne Cloud-Abhängigkeit. Hochformat-Generierung wird unterstützt — setze die Auflösung auf ein 9:16-Verhältnis in den Ausgabeeinstellungen. Beachte, dass die fal.ai LTX-2.3-Plattform eine serverlose Alternative bietet, wenn lokales VRAM eine Einschränkung für 1080p-Hochformat-Renderings ist.

Fazit

Die native Hochformat-Unterstützung von LTX-2.3 ist eine echte Änderung auf Trainingsebene, keine Crop-Lösung. Für Social-Teams bedeutet das bessere Motivplatzierung, natürlichere Bewegung und weniger Kompositionskorrekturen in der Ausgabephase.

Die praktischen Regeln sind einfach: 720p für die meisten Lieferungen, Fast für Entwürfe und Pro für Finalversionen, Extend für alles über 12 Sekunden. Für Weitwinkel-Action-Inhalte gewinnt Querformat-dann-Zuschneiden immer noch — nutze das richtige Werkzeug für den Shot.

Die Pipeline, die du jetzt aufbaust, wird sich fortsetzen. Bring den Workflow in Ordnung, und die Qualitätsverbesserungen werden von selbst folgen.

Frühere Beiträge: