Presentamos Alibaba WAN 2.7 Reference To Video en WaveSpeedAI

Wan 2.7 Reference-to-Video: Crea Video de IA con Personajes Consistentes a partir de Múltiples Referencias

Mantener la identidad de los personajes en clips de video generados por IA ha sido uno de los problemas más difíciles en la generación de video — hasta ahora. Wan 2.7 Reference-to-Video del laboratorio Tongyi de Alibaba resuelve esto permitiéndote proporcionar múltiples videos e imágenes de referencia, y luego generar nuevas escenas donde los personajes, objetos y estilos visuales se mantienen perfectamente consistentes. Disponible ahora en WaveSpeedAI sin tiempos de arranque en frío y con precios asequibles de pago por uso, este modelo desbloquea la generación de video con múltiples personajes de calidad de producción a través de una sencilla API REST.

Ya seas un cineasta que previsualiza escenas complejas, una marca que crea campañas con portavoces, o un creador de contenido que construye narrativas de múltiples tomas, Wan 2.7 Reference-to-Video elimina el problema de inconsistencia que ha afectado a los flujos de trabajo de video con IA.

Cómo Funciona Wan 2.7 Reference-to-Video

Wan 2.7 Reference-to-Video está construido sobre la arquitectura Diffusion Transformer (DiT) de Alibaba con un mecanismo de Atención Completa que procesa las relaciones espaciales y temporales en toda la secuencia de video simultáneamente. Por eso la identidad del personaje se mantiene estable durante toda la duración del clip — el modelo no genera fotograma a fotograma, sino que comprende toda la secuencia a la vez.

El flujo de trabajo es sencillo:

Sube videos de referencia — proporciona uno o más videos fuente que contengan los personajes o elementos visuales que deseas preservar.
Agrega una imagen de referencia opcional — complementa con una imagen fija para orientación visual adicional.
Escribe tu prompt — describe la nueva escena en lenguaje natural, referenciando a los personajes por posición (por ejemplo, “El personaje del Video 1 camina por un jardín mientras el Video 2 observa desde un banco”).
Genera — el modelo produce un nuevo video que coloca a tus personajes referenciados en la escena descrita con identidad, estilo y movimiento coherentes preservados.

El modelo admite hasta 5 entradas de referencia combinadas (videos e imágenes juntos), salida en resolución 720p o 1080p, relaciones de aspecto incluyendo 16:9, y duraciones de clip de 5, 10 o 15 segundos. Un sistema único de indexación de prompts te permite controlar con precisión qué referencia aparece dónde — los videos se numeran primero (Video 1, Video 2), luego las imágenes continúan la secuencia (Imagen 3, Imagen 4).

Características Principales de Wan 2.7 Reference-to-Video

Soporte de referencia de múltiples videos — Combina personajes, objetos o elementos visuales de múltiples videos fuente en una sola escena coherente. Ningún otro modelo de esta clase maneja referencias de video de múltiples fuentes tan limpiamente.
Consistencia de personajes con identidad bloqueada — La arquitectura de Atención Completa preserva los rasgos faciales, la ropa, las proporciones corporales y los detalles estilísticos en el clip generado sin la deriva de identidad común en los modelos de video basados en difusión más antiguos.
Indexación de prompts para control preciso — Referencia personajes específicos usando la sintaxis “Video 1,” “Video 2,” “Imagen 3” en tu prompt. Esto te da control a nivel de director sobre quién hace qué en la escena generada.
Soporte de prompt negativo — Especifica elementos a excluir de la salida, evitando la mezcla visual no deseada entre fuentes de referencia.
Expansión automática de prompts — Activa la expansión de prompts para que el modelo enriquezca los prompts más cortos con detalles adicionales, produciendo salidas más ricas sin ingeniería manual de prompts.
Salida en 1080p — Genera en resolución Full HD para resultados listos para producción, o usa 720p para una iteración más rápida durante el proceso creativo.
Hasta 15 segundos por clip — Genera escenas más largas que dan a los personajes tiempo para moverse, interactuar y expresarse — suficiente para shorts en redes sociales y cortes comerciales.

Mejores Casos de Uso de Wan 2.7 Reference-to-Video

Narración con Múltiples Personajes y Cortometrajes

Coloca personajes de videos de referencia separados en escenas compartidas que nunca filmaron juntos realmente. Un cineasta puede filmar actores individualmente, luego usar Wan 2.7 R2V para generar escenas de interacción — personajes sentados juntos, caminando lado a lado, o teniendo una conversación en un nuevo entorno. Esto reduce drásticamente los costos de producción para proyectos independientes y previsualizaciones.

Campañas de Video con Portavoces de Marca

Los equipos de marketing pueden generar docenas de variaciones de video de marca con un portavoz o mascota consistente. Sube un video de referencia de tu personaje de marca una vez, luego genéralo en diferentes entornos — en una cocina, en una oficina, al aire libre — manteniendo una identidad visual perfecta durante toda la campaña. No se necesitan nuevas grabaciones.

Contenido en Redes Sociales a Escala

Los creadores de contenido pueden producir video de formato corto con personajes consistentes en volumen. Toma un video de referencia de un personaje o persona recurrente, describe nuevos escenarios y genera contenido fresco diariamente. La preservación de identidad garantiza que tu audiencia reconozca al personaje en cada publicación, construyendo consistencia de marca sin el costo de producción.

Demostraciones de Productos y Videos Explicativos

Combina un video de referencia de un presentador con imágenes de productos para generar videos de demostración pulidos. El presentador mantiene su apariencia y estilo mientras interactúa con productos en nuevos contextos — perfecto para listados de comercio electrónico, lanzamientos de productos y contenido tutorial.

Conceptualización Creativa y Storyboarding

Los directores y equipos creativos pueden prototipar rápidamente escenas con múltiples personajes antes de comprometerse con la producción completa. Genera 10 variaciones de una escena con diferentes encuadres, iluminación o interacciones de personajes en minutos. Usa 720p para iteración rápida, luego renderiza el concepto ganador en 1080p.

Contenido de Fans y Crossovers de Personajes

Combina elementos visuales de diferentes fuentes en una sola escena coherente. Los personajes de diferentes videos de referencia pueden interactuar naturalmente, abriendo posibilidades creativas para fan art, mashups y narración visual experimental.

Contenido de Formación y Educativo

Genera contenido de video consistente dirigido por instructores en múltiples lecciones. Sube una referencia del instructor una vez, luego prodúcelo en diferentes entornos educativos — en una pizarra, en un laboratorio, en el campo — manteniendo continuidad visual en toda una serie de cursos.

Precios y Acceso a la API de Wan 2.7 Reference-to-Video

WaveSpeedAI ofrece Wan 2.7 Reference-to-Video con precios sencillos por generación:

Duración	720p	1080p
5 segundos	$1.00	$1.60
10 segundos	$1.50	$2.40
15 segundos	$2.00	$3.20

Los renders en 1080p cuestan 1.6× la tarifa de 720p. El precio incluye un costo fijo por el procesamiento de video de referencia.

Comenzar toma minutos. Instala el SDK de WaveSpeed y realiza tu primera llamada a la API:

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "resolution": "720p",
    "aspect_ratio": "16:9",
    "duration": 5,
    "enable_prompt_expansion": False,
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/alibaba/wan-2.7/reference-to-video", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

WaveSpeedAI ejecuta Wan 2.7 Reference-to-Video sin tiempos de arranque en frío — tu primera solicitud es tan rápida como la centésima. Sin demoras por aprovisionamiento de GPU, sin cargos por cómputo inactivo. Pagas solo por lo que generas.

Prueba Wan 2.7 Reference-to-Video ahora →

Consejos para Mejores Resultados con Wan 2.7 Reference-to-Video

Usa videos de referencia claros y distintos. Cuanto más visualmente distintos sean los videos de referencia, mejor preservará el modelo la identidad de cada personaje en la salida. Evita referencias con sujetos de apariencia similar.
Referencia los personajes por índice en tu prompt. Usa siempre “Video 1,” “Video 2,” etc. para especificar qué personaje hace qué. La numeración sigue el orden de carga para videos, luego continúa para las imágenes de referencia.
Comienza con 720p para la iteración. Prueba la composición de tu escena, la redacción del prompt y el posicionamiento de los personajes en 720p antes de comprometerte con un render final en 1080p. Esto ahorra tiempo y costo.
Usa prompts negativos para evitar la mezcla. Si notas que los estilos visuales se mezclan entre fuentes de referencia, agrega un prompt negativo para excluir elementos no deseados específicos.
Activa la expansión de prompts para prompts cortos. Si tu prompt es breve o carece de detalles de escena, activar la expansión de prompts permite que el modelo complete automáticamente los detalles cinematográficos.
Mantén los videos de referencia cortos y enfocados. Los clips de referencia que muestran claramente el sujeto que deseas preservar producirán mejor consistencia de identidad que metraje largo y variado.

Preguntas Frecuentes sobre Wan 2.7 Reference-to-Video

¿Qué es Wan 2.7 Reference-to-Video?

Wan 2.7 Reference-to-Video es un modelo de generación de video con IA de Alibaba que crea nuevas escenas de video preservando la identidad, apariencia y estilo de los personajes de tus videos e imágenes de referencia.

¿Cuánto cuesta Wan 2.7 Reference-to-Video?

Los precios comienzan en $1.00 por clip de 5 segundos en 720p, escalando hasta $3.20 para un video de 15 segundos en 1080p. No hay cuotas de suscripción — pagas por generación en WaveSpeedAI.

¿Puedo usar Wan 2.7 Reference-to-Video a través de API?

Sí. Wan 2.7 Reference-to-Video está disponible como API REST en WaveSpeedAI sin tiempos de arranque en frío, precios de pago por uso y el SDK de Python de WaveSpeed para una integración sencilla.

¿Cuántos videos de referencia puedo usar a la vez?

Puedes proporcionar hasta 5 entradas de referencia combinadas (videos e imágenes juntos). Cada referencia se numera secuencialmente en tu prompt para un control preciso sobre qué personaje aparece dónde.

¿En qué se diferencia Wan 2.7 Reference-to-Video de Wan 2.7 Image-to-Video?

Wan 2.7 Image-to-Video anima una sola imagen de referencia en video. Reference-to-Video acepta múltiples referencias de video, preservando la identidad entre fuentes y habilitando escenas con múltiples personajes con identidad consistente — una capacidad fundamentalmente diferente para flujos de trabajo de producción.

Comienza a Crear Video con Personajes Consistentes con Wan 2.7

Wan 2.7 Reference-to-Video aporta una capacidad que antes era imposible en la generación de video con IA: preservación confiable de la identidad de múltiples personajes a partir de referencias de video. Combinado con la inferencia instantánea y la API simple de WaveSpeedAI, está listo para flujos de trabajo de producción hoy mismo.

Explora la suite completa de Wan 2.7 en WaveSpeedAI — incluyendo Text-to-Video, Image-to-Video, Video Edit y Video Extend.

Prueba Wan 2.7 Reference-to-Video en WaveSpeedAI →