← Blog

Einführung von WaveSpeedAI LTX 2.3 Image-to-Video auf WaveSpeedAI

LTX-2.3 ist ein DiT-basiertes Audio-Video-Grundlagenmodell, das entwickelt wurde, um synchronisiertes Video und Audio innerhalb eines einzigen Modells zu generieren, mit verbesserter Audio- und Bildqualität

5 min read
Wavespeed Ai Ltx.2.3 Image To Video
Wavespeed Ai Ltx.2.3 Image To Video LTX-2.3 ist ein DiT-basiertes Audio-Video-Grundlagenmodell, ...
Try it
Einführung von WaveSpeedAI LTX 2.3 Image-to-Video auf WaveSpeedAI

Erwecke deine Bilder zum Leben mit LTX-2.3 Image-to-Video auf WaveSpeedAI

Statische Bilder erzählen eine Geschichte. Bewegte Bilder mit Sound lassen das Publikum sie fühlen. Mit LTX-2.3 Image-to-Video, das jetzt auf WaveSpeedAI verfügbar ist, kannst du jedes Standbild in ein hochauflösendes Video verwandeln – komplett mit synchronisiertem Audio – in einem einzigen Generierungsschritt. Keine Nachbearbeitung. Keine separaten Audio-Tools. Einfach hochladen, Prompt eingeben und abspielen.

Entwickelt von Lightricks auf der Diffusion Transformer (DiT)-Architektur, stellt LTX-2.3 einen großen Schritt vorwärts in der vereinheitlichten Audio-Video-Generierung dar. Während die meisten Image-to-Video-Modelle stumme Clips erzeugen, die separates Sound-Design erfordern, generiert LTX-2.3 Bewegung und Audio gemeinsam als eine kohärente Ausgabe. Das Ergebnis sind animierte Inhalte, die sich vom ersten Frame an vollständig anfühlen.

Was ist LTX-2.3?

LTX-2.3 ist die neueste Version der LTX-2-Modellfamilie – ein Foundation-Modell mit 19 Milliarden Parametern, aufgeteilt in etwa 14 Milliarden Parameter für die Videoverarbeitung und 5 Milliarden für Audio. Es ist eines der ersten Open-Source-Modelle, das in der Lage ist, synchronisiertes Audio und Video innerhalb einer einzigen vereinheitlichten Architektur zu generieren, wobei Cross-Attention-Mechanismen verwendet werden, um Ton und Bewegung perfekt aufeinander abzustimmen.

Das Release „2.3” bringt wesentliche Verbesserungen gegenüber seinem Vorgänger: ein neu aufgebauter VAE (Variational Autoencoder), der mit höherwertigen Daten trainiert wurde, ein verbesserter HiFi-GAN-Vocoder für sauberere Audio-Ausgabe, stärkere Image-to-Video-Konsistenz und bessere Prompt-Treue während der gesamten Generierungspipeline.

Hauptfunktionen

  • Synchronisierte Audio-Video-Generierung: Sound wird nicht nachträglich aufgesetzt. Umgebungsgeräusche, Musik, Dialoghinweise und Soundeffekte werden zusammen mit der visuellen Bewegung in einem einzigen Durchgang generiert, wodurch separate Audio-Workflows entfallen.

  • Neuer VAE für schärfere Details: Der neu aufgebaute latente Raum in LTX-2.3 bewahrt feine Texturen, Gesichtszüge, Haare, Text und Kantendetails über den gesamten Frame hinweg. Die Ausgaben sind sichtbar schärfer als bei früheren Versionen.

  • Sauberere Audio-Ausgabe: Ein verbesserter HiFi-GAN-Vocoder reduziert Rauschstörungen und Stille-Lücken. Dialog, Umgebungsklang und Musik kommen mit merklich größerer Klarheit durch.

  • Treue Bildbeibehaltung: Das Modell bewahrt das Motiv, die Komposition, den Bildausschnitt und die Beleuchtung deines Referenzbilds, während es natürliche, kohärente Bewegung hinzufügt – kein Identitätsdrift oder visueller Qualitätsverlust.

  • Flexible Auflösung und Dauer: Generiere Videos in 480p, 720p oder 1080p mit Laufzeiten von 5 bis 20 Sekunden, sodass du Qualität, Kosten und kreative Anforderungen ausbalancieren kannst.

  • Unterstützung für Hoch- und Querformat: Der native 9:16-Hochformatmodus erleichtert die Erstellung von Inhalten, die für Social-Media-Plattformen wie Instagram Reels, TikTok und YouTube Shorts optimiert sind.

  • 24/48 FPS-Optionen: Wähle die Bildrate, die deinen Ausgabeanforderungen entspricht – von der Standard-Wiedergabe bis zur flüssigeren High-Frame-Rate-Ausgabe.

Praxisanwendungen

Produktmarketing

Verwandle Produktfotografie in dynamische Präsentationsvideos. Lade ein Hauptbild eines Sneakers, einer Hautpflegeflasche oder eines Möbelstücks hoch, und LTX-2.3 animiert es mit subtiler Bewegung – eine rotierende Ansicht, wechselndes Licht, atmosphärische Umgebung – während es passendes Umgebungsaudio generiert. Was früher einen Videofilmer und Sound-Designer erforderte, kann jetzt in Sekunden entworfen werden.

Social-Media-Inhalte

Die Nachfrage nach Kurzvideos ist unerbittlich. LTX-2.3 ermöglicht es Erstellern, ihre stärksten Standbilder in scroll-stoppende animierte Beiträge mit eingebautem Sound zu verwandeln. Eine Landschaftsfotografie wird zu einem kinematischen Moment mit Wind und Vogelgesang. Ein Essensfoto wird zu einem zischenden, dampfenden Clip, der sofort gepostet werden kann.

Porträt- und Charakteranimation

Animiere Porträtaufnahmen, Charakterdarstellungen und Kunstwerke mit natürlichen Bewegungen. Das Modell zeichnet sich darin aus, die Gesichtsidentität zu bewahren und dabei lebensechte Bewegungen hinzuzufügen – subtile Kopfdrehungen, Blinzeln, Ausdrucksänderungen – was es für digitale Avatare, kreative Projekte und personalisierte Inhalte wertvoll macht.

Storyboarding und Pre-Visualisierung

Für Filmemacher und kreative Direktoren verwandelt LTX-2.3 statische Storyboard-Frames und Konzeptzeichnungen in animierte Sequenzen mit synchronisiertem Audio. Dies beschleunigt die Vorproduktion, indem Stakeholdern ein greifbares Gefühl für Tempo, Stimmung und Sound-Design vermittelt wird, bevor ein einziger Frame gedreht wird.

E-Commerce und Werbung

Statische Produktlisten verlieren Aufmerksamkeit. Animierte Produktvideos mit Umgebungsklang steigern Engagement und Konversionsraten. LTX-2.3 macht es praktisch, Video-Assets in großem Maßstab zu generieren – schnell in 480p iterieren, dann finale Assets in 1080p rendern.

Erste Schritte auf WaveSpeedAI

LTX-2.3 Image-to-Video auf WaveSpeedAI zu betreiben ist unkompliziert. Ohne Cold Starts und mit schneller Inferenz erhältst du Ergebnisse in Sekunden statt Minuten.

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/ltx-2.3/image-to-video",
    {
        "image": "https://your-image-url.com/photo.jpg",
        "prompt": "The camera slowly pushes in as the subject turns their head, soft ambient music playing"
    },
)

print(output["outputs"][0])  # Ausgabe-Video-URL

Du kannst auch Auflösung und Dauer angeben:

output = wavespeed.run(
    "wavespeed-ai/ltx-2.3/image-to-video",
    {
        "image": "https://your-image-url.com/product.jpg",
        "prompt": "Gentle rotation revealing product details, soft studio lighting, subtle ambient hum",
        "resolution": "1080p",
        "duration": 10
    },
)

Profi-Tipp: Beginne mit 480p und kurzen Laufzeiten, um deinen Prompt und die Bewegungsrichtung zu verfeinern. Sobald du das gewünschte Ergebnis hast, skaliere auf 1080p für die finale Ausgabe. Verwende einen festen Seed beim Vergleich von Prompt-Variationen, damit du genau isolieren kannst, was sich verändert hat.

Preise

LTX-2.3 auf WaveSpeedAI beginnt bei nur $0,10 für einen 5-Sekunden-Clip in 480p und skaliert bis zu $0,80 für ein 20-Sekunden-Video in 1080p. Keine Abonnements erforderlich – zahle nur für das, was du generierst.

Auflösung5s10s15s20s
480p$0,10$0,20$0,30$0,40
720p$0,15$0,30$0,45$0,60
1080p$0,20$0,40$0,60$0,80

Warum WaveSpeedAI?

In einer Landschaft, in der synchronisierte Audio-Video-Generierung schnell zum Standard wird – mit Modellen wie Veo 3.1, Kling 3.0 und Sora 2, die alle die Grenzen verschieben – hebt sich LTX-2.3 als leistungsstarke Open-Source-Option mit produktionsreifer Qualität hervor. Und der Betrieb auf WaveSpeedAI bietet dir die passende Infrastruktur: schnelle Inferenz ohne Cold Starts, einfache API-Integration und Preise, die Experimente erschwinglich machen.

Ob du ein Solo-Creator bist, der Social-Media-Inhalte animiert, oder ein Team, das Video-Assets in großem Maßstab generiert – die Kombination aus LTX-2.3’s vereinheitlichter Audio-Video-Generierung und WaveSpeedAIs optimierter Infrastruktur bedeutet weniger Wartezeit und mehr Zeit zum Erstellen.

Jetzt loslegen

Die Lücke zwischen einem Standbild und einem vollständigen Video mit Sound war noch nie kleiner. Probiere LTX-2.3 Image-to-Video auf WaveSpeedAI noch heute aus und entdecke, wie deine Bilder in Bewegung klingen.