Presentamos Alibaba WAN 2.6 Reference To Video Flash en WaveSpeedAI

Alibaba WAN 2.6 Reference-to-Video Flash ya está disponible en WaveSpeedAI

La velocidad se une a la consistencia. WaveSpeedAI se complace en anunciar el lanzamiento de Alibaba WAN 2.6 Reference-to-Video Flash, la variante rápida y destilada del modelo de generación de video con preservación de identidad de Alibaba. Si has estado trabajando con flujos de trabajo de referencia a video y desearas que los resultados llegaran más rápido, este modelo está hecho para ti — ofreciendo la misma consistencia de personajes y narrativa en múltiples tomas en una fracción del tiempo de generación.

¿Qué es WAN 2.6 Reference-to-Video Flash?

WAN 2.6 Reference-to-Video Flash es la versión optimizada para velocidad del modelo estándar WAN 2.6 Reference-to-Video. Destilado a partir del modelo completo, conserva la capacidad principal que hace única a la familia WAN 2.6 R2V: subes imágenes de referencia de personajes, accesorios o escenas, escribes un prompt de texto describiendo el video que deseas, y el modelo genera nuevas tomas de video que preservan fielmente la identidad y apariencia de tus sujetos de referencia.

La versión Flash logra una inferencia significativamente más rápida — generando videos en segundos en lugar de minutos — mientras mantiene la calidad visual, la coherencia del movimiento y la preservación de identidad que definen la serie WAN 2.6. Admite hasta 5 imágenes de referencia, salida en 720p y 1080p, duraciones de 5 o 10 segundos, y generación opcional de audio sincronizado.

Características principales

Entrada multi-referencia: Sube hasta 5 imágenes de referencia para guiar la generación. Múltiples ángulos y puntos de vista del mismo sujeto producen una mejor preservación de identidad — una mejora sustancial respecto a los flujos de trabajo típicos de referencia única
Preservación de identidad a alta velocidad: El modelo Flash mantiene los rasgos faciales, la ropa, las proporciones corporales y las características distintivas de tus sujetos de referencia en cada fotograma generado, ahora con tiempos de espera drásticamente reducidos
Composición en múltiples tomas: Elige entre una única toma continua o una composición automática de múltiples tomas que divide tu prompt en varias tomas coherentes con transiciones suaves — narrativa cinematográfica desde una sola llamada a la API
Generación de audio integrada: Habilita audio sincronizado opcional, incluyendo música de fondo, sonidos ambientales y efectos Foley, adaptados al contenido del video generado. No se requiere doblaje en postproducción
Flexibilidad de resolución: Genera en 720p (1280×720 o 720×1280) o 1080p (1920×1080 o 1080×1920) para adaptarse a tus requisitos de salida — horizontal o vertical
Expansión de prompts: Un potenciador de prompts integrado puede refinar automáticamente tus descripciones en prompts más ricos y detallados, mejorando la calidad de generación sin requerir ingeniería experta de prompts

Casos de uso en el mundo real

Contenido para redes sociales con personajes

Crea TikToks, Reels y YouTube Shorts con personajes consistentes en múltiples videos. Sube algunas fotos de tu personaje o mascota de marca, describe la escena y genera contenido acorde a tu marca a escala. La velocidad Flash hace práctica la iteración rápida — prueba docenas de variaciones en el tiempo que el modelo estándar produce un puñado.

Prototipado de marketing y publicidad

Genera demostraciones de productos, comerciales de marca y conceptos de campaña con personas o personajes específicos con identidad consistente en todas las tomas. Usa el modo multi-toma para producir secuencias publicitarias estructuradas completas con audio sincronizado, reduciendo días de preproducción a minutos.

Narrativa y animación

Construye secuencias narrativas cortas donde los personajes mantienen su apariencia a través de los cambios de escena. La capacidad multi-referencia te permite establecer múltiples personajes en una sola generación, mientras el modo multi-toma maneja las transiciones y el ritmo automáticamente. Los escritores y artistas de storyboard pueden visualizar escenas casi tan rápido como pueden describirlas.

Previsualizacion rápida para cine

Los directores y directores de fotografía pueden previsualizarar tomas y secuencias usando fotos de referencia de actores y locaciones. La velocidad del modelo Flash habilita un ciclo de retroalimentación creativa en vivo — ajusta el prompt, regenera y ve el resultado en segundos en lugar de esperar largas colas de renderizado.

Videos de productos para comercio electrónico

Transforma fotos estáticas de productos en videos dinámicos con branding consistente. Sube imágenes de productos como referencias, describe el movimiento y el entorno deseados, y genera contenido de video pulido listo para listados y anuncios.

Comenzar en WaveSpeedAI

Usar WAN 2.6 Reference-to-Video Flash a través de la API de WaveSpeedAI es sencillo:

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "reference_urls": [
        "https://interactive-examples.mdn.mozilla.net/media/cc0-images/painted-hand-298-332.jpg"
    ],
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "size": "1280*720",
    "duration": 5,
    "shot_type": "single",
    "enable_audio": True,
    "enable_prompt_expansion": False,
    "seed": -1
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/alibaba/wan-2.6/reference-to-video-flash", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

Opciones de configuración

Parámetro	Descripción
`reference_urls`	1-5 imágenes de referencia para guiar el personaje y la escena
`prompt`	Descripción en texto de la escena y el movimiento del video
`size`	Resolución de salida: 720p o 1080p, horizontal o vertical
`duration`	Duración del video: 5 o 10 segundos
`shot_type`	`single` para una toma continua, `multi` para composiciones variadas
`enable_audio`	Genera audio sincronizado (habilitado por defecto)
`enable_prompt_expansion`	Mejora automáticamente tu prompt (deshabilitado por defecto)

Precios

Resolución	Duración	Audio desactivado	Audio activado
720p	5s	$0.25	$0.50
720p	10s	$0.375	$0.75
1080p	5s	$0.40	$0.80
1080p	10s	$0.60	$1.20

Desde solo $0.25 por video — una fracción de lo que cobran modelos comparables por generación con identidad consistente.

Consejos profesionales

Usa múltiples imágenes de referencia desde diferentes ángulos para lograr la preservación de identidad más precisa
Selecciona el tipo de toma multi para composiciones cinematográficas y dinámicas con transiciones automáticas
Desactiva el audio cuando no lo necesites — el procesamiento es más rápido y cuesta la mitad
Usa 720p para prototipos rápidos y borradores, luego cambia a 1080p para renderizados de producción final
Añade un prompt negativo como "blurry, distorted, deformed" para mejorar la nitidez del resultado
Si tu video generado carece de sonido, añade frases como “with background ambience” a tu prompt

¿Por qué WaveSpeedAI?

WaveSpeedAI proporciona la infraestructura ideal para WAN 2.6 Reference-to-Video Flash:

Sin arranques en frío: Cada solicitud comienza a procesarse de inmediato — sin esperar la inicialización del modelo
Inferencia rápida: La infraestructura optimizada combinada con la arquitectura destilada del modelo Flash significa que obtienes resultados en segundos
Precios accesibles: Generación de video con identidad consistente desde $0.25, con facturación transparente por generación
API REST simple: Integra la generación de referencia a video en cualquier aplicación o flujo de trabajo con una sola llamada a la API

Empieza a generar hoy

Alibaba WAN 2.6 Reference-to-Video Flash incorpora la generación de video con preservación de identidad a los flujos de trabajo creativos en tiempo real. Es la misma entrada multi-referencia, la misma consistencia de personajes y la misma narrativa en múltiples tomas — entregada a la velocidad que tus proyectos exigen.

Ya sea que estés iterando sobre conceptos publicitarios, construyendo una biblioteca de contenido con personajes, o previsualizando escenas para producción, este modelo elimina la espera y te permite centrarte en el trabajo creativo.

Pruébalo ahora en wavespeed.ai/models/alibaba/wan-2.6/reference-to-video-flash.

Alibaba WAN 2.6 Reference-to-Video Flash ya está disponible en WaveSpeedAI

¿Qué es WAN 2.6 Reference-to-Video Flash?

Características principales

Casos de uso en el mundo real

Contenido para redes sociales con personajes

Prototipado de marketing y publicidad

Narrativa y animación

Previsualizacion rápida para cine

Videos de productos para comercio electrónico

Comenzar en WaveSpeedAI

Opciones de configuración

Precios

Consejos profesionales

¿Por qué WaveSpeedAI?

Empieza a generar hoy

Artículos relacionados

Presentamos ByteDance Seedance 2.0 Mini en WaveSpeedAI

Claude Fable 5 con Fallback a Opus 4.8 Explicado

API de GLM-5.2: Precios, Contexto de 1M y Enrutamiento en Producción

Precios de GPT-5.4 Mini: Costos de entrada, caché y salida

API de MAI-Image-2.5: Lo que los desarrolladores deben saber

Precio de MiniMax M3: Costo de API de Contexto Largo para Desarrolladores