Alibaba WAN 2.7 Reference-to-Video auf WaveSpeedAI vorgestellt

Wan 2.7 Reference-to-Video: Charakterkonsistente KI-Videos aus mehreren Referenzen erstellen

Die Beibehaltung der Charakteridentität über KI-generierte Videoclips hinweg war eines der schwierigsten Probleme bei der generativen Videoerzeugung – bis jetzt. Wan 2.7 Reference-to-Video aus Alibabas Tongyi Lab löst dieses Problem, indem es Ihnen ermöglicht, mehrere Referenzvideos und -bilder einzuspeisen und dann neue Szenen zu generieren, in denen Charaktere, Requisiten und visuelle Stile vollständig konsistent bleiben. Jetzt auf WaveSpeedAI verfügbar – ohne Cold Starts und mit erschwinglicher nutzungsbasierter Abrechnung – erschließt dieses Modell die Generierung von Mehrcharakter-Videos in Produktionsqualität über eine einfache REST-API.

Ob Sie ein Filmemacher sind, der komplexe Szenen vorvisualisiert, eine Marke, die Markenbotschafter-Kampagnen erstellt, oder ein Content-Creator, der mehrszenige Erzählungen aufbaut – Wan 2.7 Reference-to-Video beseitigt das Inkonsistenzproblem, das KI-Video-Workflows bisher geplagt hat.

Wie Wan 2.7 Reference-to-Video funktioniert

Wan 2.7 Reference-to-Video basiert auf Alibabas Diffusion-Transformer-Architektur (DiT) mit einem Full-Attention-Mechanismus, der räumliche und zeitliche Beziehungen über die gesamte Videosequenz gleichzeitig verarbeitet. Deshalb bleibt die Charakteridentität über die gesamte Clip-Dauer stabil – das Modell generiert nicht nur Frame für Frame, sondern versteht die gesamte Sequenz auf einmal.

Der Workflow ist unkompliziert:

Referenzvideos hochladen – stellen Sie ein oder mehrere Quellvideos mit den Charakteren oder visuellen Elementen bereit, die Sie beibehalten möchten.
Optionales Referenzbild hinzufügen – ergänzen Sie mit einem Standbild für zusätzliche visuelle Führung.
Prompt schreiben – beschreiben Sie die neue Szene in natürlicher Sprache und referenzieren Sie Charaktere nach Position (z. B. „Der Charakter in Video 1 geht durch einen Garten, während Video 2 von einer Bank aus zuschaut”).
Generieren – das Modell produziert ein neues Video, das Ihre referenzierten Charaktere mit beibehaltener Identität, Stil und kohärenter Bewegung in die beschriebene Szene setzt.

Das Modell unterstützt bis zu 5 kombinierte Referenzeingaben (Videos und Bilder zusammen), Ausgabe in 720p oder 1080p Auflösung, Seitenverhältnisse einschließlich 16:9 sowie Clip-Dauern von 5, 10 oder 15 Sekunden. Ein einzigartiges Prompt-Indizierungssystem ermöglicht es Ihnen, präzise zu steuern, welche Referenz wo erscheint – Videos werden zuerst nummeriert (Video 1, Video 2), dann setzen Bilder die Sequenz fort (Bild 3, Bild 4).

Hauptmerkmale von Wan 2.7 Reference-to-Video

Multi-Video-Referenzunterstützung – Kombinieren Sie Charaktere, Objekte oder visuelle Elemente aus mehreren Quellvideos zu einer einzigen kohärenten Szene. Kein anderes Modell dieser Klasse verarbeitet Multi-Source-Videoreferenzen so sauber.
Identitätsgesicherte Charakterkonsistenz – Die Full-Attention-Architektur bewahrt Gesichtszüge, Kleidung, Körperproportionen und stilistische Details über den generierten Clip hinweg, ohne den Identitätsdrift, der bei älteren diffusionsbasierten Videomodellen üblich ist.
Prompt-Indizierung für präzise Kontrolle – Referenzieren Sie bestimmte Charaktere mit der Syntax „Video 1”, „Video 2”, „Bild 3” in Ihrem Prompt. Dies gibt Ihnen Regie-Level-Kontrolle darüber, wer was in der generierten Szene tut.
Negativer Prompt-Support – Geben Sie Elemente an, die aus der Ausgabe ausgeschlossen werden sollen, um ungewolltes visuelles Vermischen zwischen Referenzquellen zu verhindern.
Automatische Prompt-Erweiterung – Aktivieren Sie die Prompt-Erweiterung, damit das Modell kürzere Prompts mit zusätzlichen Details anreichert und reichhaltigere Ausgaben ohne manuelles Prompt-Engineering produziert.
1080p-Ausgabe – Generieren Sie in voller HD-Auflösung für produktionsreife Ergebnisse oder verwenden Sie 720p für schnellere Iterationen während des kreativen Prozesses.
Bis zu 15 Sekunden pro Clip – Generieren Sie längere Szenen, die Charakteren Zeit geben, sich zu bewegen, zu interagieren und Ausdruck zu zeigen – genug für Social-Media-Shorts und Werbecuts.

Beste Anwendungsfälle für Wan 2.7 Reference-to-Video

Mehrcharakter-Storytelling und Kurzfilme

Platzieren Sie Charaktere aus separaten Referenzvideos in gemeinsamen Szenen, die sie nie tatsächlich zusammen gedreht haben. Ein Filmemacher kann Schauspieler einzeln drehen und dann Wan 2.7 R2V nutzen, um Interaktionsszenen zu generieren – Charaktere sitzen zusammen, gehen nebeneinander oder führen ein Gespräch in einer neuen Umgebung. Dies reduziert die Produktionskosten für Indie-Projekte und die Vorvisualisierung drastisch.

Markenbotschafter-Videokampagnen

Marketing-Teams können Dutzende markenkonsistente Videovariationen mit einem konsistenten Markenbotschafter oder Maskottchen generieren. Laden Sie ein Referenzvideo Ihres Markencharakters einmal hoch und generieren Sie ihn dann in verschiedenen Umgebungen – in einer Küche, in einem Büro, im Freien – während die perfekte visuelle Identität während der gesamten Kampagne erhalten bleibt. Kein Neudrehen erforderlich.

Content-Creator können charakterkonsistente Kurzvideos in großer Menge produzieren. Nehmen Sie ein Referenzvideo eines wiederkehrenden Charakters oder einer Persona, beschreiben Sie neue Szenarien und generieren Sie täglich frische Inhalte. Die Identitätserhaltung stellt sicher, dass Ihr Publikum den Charakter in jedem Beitrag erkennt und so Markenkonsistenz aufbaut, ohne den Produktionsaufwand.

Produktdemos und Erklärvideos

Kombinieren Sie ein Referenzvideo eines Präsentators mit Produktbildern, um hochwertige Demo-Videos zu generieren. Der Präsentator behält sein Erscheinungsbild und seinen Stil bei, während er mit Produkten in neuen Kontexten interagiert – perfekt für E-Commerce-Listings, Produkteinführungen und Tutorial-Inhalte.

Kreatives Konzipieren und Storyboarding

Regisseure und Kreativteams können Mehrcharakter-Szenen schnell prototypisieren, bevor sie sich für eine vollständige Produktion entscheiden. Generieren Sie 10 Variationen einer Szene mit unterschiedlichem Staging, Beleuchtung oder Charakterinteraktionen in Minuten. Verwenden Sie 720p für schnelle Iterationen und rendern Sie das beste Konzept dann in 1080p.

Fan-Content und Charakter-Crossovers

Kombinieren Sie visuelle Elemente aus verschiedenen Quellen zu einer einzigen kohärenten Szene. Charaktere aus verschiedenen Referenzvideos können natürlich interagieren, was kreative Möglichkeiten für Fan-Art, Mashups und experimentelles visuelles Storytelling eröffnet.

Schulungs- und Bildungsinhalte

Generieren Sie konsistente lehrerzentrierte Videoinhalte über mehrere Lektionen hinweg. Laden Sie eine Referenz des Lehrers einmal hoch und produzieren Sie ihn dann in verschiedenen Bildungsumgebungen – an einer Tafel, in einem Labor, im Feld – wobei die visuelle Kontinuität über eine gesamte Kursreihe erhalten bleibt.

Wan 2.7 Reference-to-Video Preise und API-Zugang

WaveSpeedAI bietet Wan 2.7 Reference-to-Video mit unkomplizierter Pro-Generierungs-Preisgestaltung an:

Dauer	720p	1080p
5 Sekunden	$1,00	$1,60
10 Sekunden	$1,50	$2,40
15 Sekunden	$2,00	$3,20

1080p-Renders kosten das 1,6-fache des 720p-Tarifs. Die Preise beinhalten einen festen Aufwand für die Verarbeitung von Referenzvideos.

Der Einstieg dauert Minuten. Installieren Sie das WaveSpeed SDK und führen Sie Ihren ersten API-Aufruf durch:

import wavespeed

output = wavespeed.run(
    "alibaba/wan-2.7/reference-to-video",
    {
        "prompt": "The character in Video 1 walks through a sunlit garden, smiling and looking at the flowers",
        "videos": ["https://example.com/reference-video.mp4"],
        "resolution": "720p",
        "duration": 5,
    },
)

print(output["outputs"][0])

WaveSpeedAI betreibt Wan 2.7 Reference-to-Video ohne Cold Starts – Ihre erste Anfrage ist genauso schnell wie Ihre hundertste. Keine GPU-Bereitstellungsverzögerungen, keine Kosten für inaktive Rechenleistung. Sie zahlen nur für das, was Sie generieren.

Wan 2.7 Reference-to-Video jetzt ausprobieren →

Tipps für beste Ergebnisse mit Wan 2.7 Reference-to-Video

Verwenden Sie klare, unterschiedliche Referenzvideos. Je visuell unterschiedlicher jedes Referenzvideo ist, desto besser bewahrt das Modell die Identität jedes Charakters in der Ausgabe. Vermeiden Sie Referenzen mit ähnlich aussehenden Motiven.
Referenzieren Sie Charaktere per Index in Ihrem Prompt. Verwenden Sie immer „Video 1”, „Video 2” usw., um anzugeben, welcher Charakter was tut. Die Nummerierung folgt der Upload-Reihenfolge für Videos und setzt sich dann für Referenzbilder fort.
Beginnen Sie mit 720p für Iterationen. Testen Sie Ihre Szenenzusammensetzung, Prompt-Formulierung und Charakterpositionierung bei 720p, bevor Sie sich für ein 1080p-Finalrender entscheiden. Dies spart sowohl Zeit als auch Kosten.
Verwenden Sie negative Prompts, um Vermischungen zu verhindern. Wenn Sie bemerken, dass visuelle Stile zwischen Referenzquellen überlaufen, fügen Sie einen negativen Prompt hinzu, um bestimmte unerwünschte Elemente auszuschließen.
Aktivieren Sie die Prompt-Erweiterung für kurze Prompts. Wenn Ihr Prompt kurz ist oder keine Szenendetails enthält, lässt das Einschalten der Prompt-Erweiterung das Modell automatisch filmische Details ergänzen.
Halten Sie Referenzvideos kurz und fokussiert. Referenzclips, die das Motiv, das Sie beibehalten möchten, klar zeigen, erzeugen eine bessere Identitätskonsistenz als langes, abwechslungsreiches Filmmaterial.

Häufig gestellte Fragen zu Wan 2.7 Reference-to-Video

Was ist Wan 2.7 Reference-to-Video?

Wan 2.7 Reference-to-Video ist ein KI-Videogenerierungsmodell von Alibaba, das neue Videoszenen erstellt und dabei die Identität, das Erscheinungsbild und den Stil von Charakteren aus Ihren Referenzvideos und -bildern bewahrt.

Wie viel kostet Wan 2.7 Reference-to-Video?

Die Preise beginnen bei $1,00 pro 5-Sekunden-Clip bei 720p und steigen bis zu $3,20 für ein 15-Sekunden-Video in 1080p. Es gibt keine Abonnementgebühren – Sie zahlen pro Generierung auf WaveSpeedAI.

Kann ich Wan 2.7 Reference-to-Video über eine API nutzen?

Ja. Wan 2.7 Reference-to-Video ist als REST-API auf WaveSpeedAI verfügbar, ohne Cold Starts, mit nutzungsbasierter Abrechnung und dem WaveSpeed Python SDK für einfache Integration.

Wie viele Referenzvideos kann ich gleichzeitig verwenden?

Sie können bis zu 5 kombinierte Referenzeingaben (Videos und Bilder zusammen) bereitstellen. Jede Referenz wird sequenziell in Ihrem Prompt nummeriert, um präzise zu steuern, welcher Charakter wo erscheint.

Wie unterscheidet sich Wan 2.7 Reference-to-Video von Wan 2.7 Image-to-Video?

Wan 2.7 Image-to-Video animiert ein einzelnes Referenzbild zu Video. Reference-to-Video akzeptiert mehrere Videoreferenzen, bewahrt die Identität über Quellen hinweg und ermöglicht Mehrcharakter-Szenen mit konsistenter Identität – eine grundlegend andere Fähigkeit für Produktions-Workflows.

Beginnen Sie mit der Erstellung charakterkonsistenter Videos mit Wan 2.7

Wan 2.7 Reference-to-Video bringt eine Fähigkeit, die in der KI-Videogenerierung bisher unmöglich war: zuverlässige Mehrcharakter-Identitätserhaltung aus Videoreferenzen. Kombiniert mit WaveSpeedAIs sofortiger Inferenz und einfacher API ist es heute bereit für Produktions-Workflows.

Erkunden Sie die vollständige Wan 2.7-Suite auf WaveSpeedAI – einschließlich Text-to-Video, Image-to-Video, Video Edit und Video Extend.

Wan 2.7 Reference-to-Video auf WaveSpeedAI ausprobieren →