← Blog

Presentamos Vidu Q3 Reference To Video en WaveSpeedAI

Vidu Q3 Reference-to-Video Mix genera videos con múltiples entidades consistentes a partir de 1 a 4 imágenes de referencia con orientación de texto. Compatible con resoluciones de 360p a 1080p,

By WaveSpeedAI 9 min read
Vidu Q3 Reference To Video Vidu Q3 Reference-to-Video Mix genera videos con múltiples e...
Try it

Vidu Q3 Reference-to-Video: Generación de Video Multi-Entidad Consistente a partir de Imágenes de Referencia

Crear video generado por IA con personajes consistentes ha sido uno de los problemas más difíciles en la IA generativa — hasta ahora. Vidu Q3 Reference-to-Video Mix resuelve este desafío generando videos cinematográficos con múltiples entidades consistentes a partir de 1 a 4 imágenes de referencia combinadas con un texto descriptivo. Disponible hoy en WaveSpeedAI sin tiempos de espera en frío y con precios por segundo, este modelo permite a creadores, profesionales de marketing y desarrolladores producir contenido de video con personajes donde cada sujeto se mantiene visualmente coherente desde el primer fotograma hasta el último.

Desarrollado por ShengShu Technology — el equipo detrás de la plataforma de generación de video Vidu, clasificada como la mejor del mundo — Q3 Reference-to-Video representa un gran avance respecto a la animación de imagen única. En lugar de esperar que tu personaje se vea igual en distintos clips, proporcionas imágenes de referencia que fijan la identidad, el estilo y la apariencia, y luego describes la escena que deseas. El resultado es video listo para producción con audio sincronizado, resolución de hasta 1080p y hasta 16 segundos de duración.

Prueba Vidu Q3 Reference-to-Video en WaveSpeedAI →

Cómo Funciona Vidu Q3 Reference-to-Video

Vidu Q3 Reference-to-Video utiliza la arquitectura U-ViT (Universal Vision Transformer) propia de ShengShu, diseñada específicamente para la consistencia multi-entidad. Este es el flujo de trabajo:

  1. Sube 1–4 imágenes de referencia — Estas establecen la identidad visual de personajes, objetos o elementos de estilo que deseas preservar en el video de salida.
  2. Escribe un texto descriptivo — Describe la escena, la acción, el movimiento de cámara y la atmósfera. Un Potenciador de Prompts incorporado puede mejorar automáticamente tus descripciones para obtener resultados más ricos.
  3. Configura los ajustes de salida — Elige tu relación de aspecto (16:9, 9:16, 1:1 y más), resolución (480p, 720p o 1080p) y duración (hasta 16 segundos).
  4. Genera — El modelo combina todas las imágenes de referencia en un video cohesivo y con movimiento consistente con audio sincronizado opcional.

Lo que diferencia esto de los modelos estándar de imagen a video es la fusión de múltiples referencias. Los modelos tradicionales animan una sola imagen. Vidu Q3 Reference-to-Video combina múltiples imágenes fuente — diferentes personajes, diferentes ángulos, diferentes referencias de estilo — en una única escena unificada, preservando la identidad distinta de cada entidad a lo largo del clip.

Especificaciones Técnicas

ParámetroDetalles
Entrada1–4 imágenes de referencia + texto descriptivo
Resolución480p, 720p, 1080p
DuraciónHasta 16 segundos
Relaciones de Aspecto16:9, 9:16, 1:1 y más
AudioGeneración de audio sincronizado nativo (opcional)
ReproducibilidadParámetro de semilla para resultados consistentes

Características Principales de Vidu Q3 Reference-to-Video Mix

  • Consistencia de personajes multi-entidad — Sube imágenes de referencia separadas para diferentes personajes y ambos aparecerán en el resultado con sus identidades preservadas. No más “deriva de personaje” entre fotogramas.
  • Generación audiovisual nativa — Vidu Q3 es el primer modelo de video de IA de formato largo de la industria que entrega audio y video sincronizados en un solo paso, incluyendo sonido ambiental, sincronización labial lista para diálogos y audio atmosférico.
  • Renderizado nativo en 1080p — Salida en Full HD sin escalado artificial. Los fotogramas son limpios, detallados y bien equilibrados incluso en escenas de alto contraste.
  • Hasta 16 segundos por clip — La duración máxima más larga entre los principales modelos de video IA, dándote tiempo suficiente para demostraciones completas de productos, arcos narrativos y secuencias cinematográficas.
  • Potenciador de Prompts incorporado — Enriquece automáticamente las descripciones de tu escena para obtener resultados más detallados y cinematográficos sin requerir experiencia en ingeniería de prompts.
  • Salida determinista con control de semilla — Fija un resultado específico e itera sobre cambios de resolución o duración manteniendo la misma dirección creativa.

Mejores Casos de Uso para Vidu Q3 Reference-to-Video

Narrativa y Animación con Personajes Protagonistas

Crea series animadas con personajes consistentes a lo largo de múltiples episodios. Sube hojas de referencia de personajes y genera escena tras escena donde tu protagonista se ve idéntico cada vez. ShengShu demostró esta capacidad en SXSW 2026, presentando la primera solución de IA del mundo para la producción de series animadas — y Vidu Q3 Reference-to-Video es el motor detrás de ello.

Contenido en Redes Sociales con Personajes de Marca Consistentes

Las mascotas de marca y los avatares de influencers necesitan verse iguales en cada pieza de contenido. Sube las imágenes de referencia de tu personaje de marca una vez, luego genera docenas de videos de formato corto para TikTok, Instagram Reels o YouTube Shorts — todos visualmente consistentes, todos producidos en minutos en lugar de días.

Marketing de Productos y Video para E-Commerce

Coloca tu producto en escenas dinámicas y cinematográficas sin necesidad de un estudio fotográfico. Sube fotos del producto desde múltiples ángulos, escribe un prompt describiendo el contexto de estilo de vida y genera videos de marketing que muestren tu producto en acción. La entrada de múltiples referencias ayuda al modelo a comprender la estructura 3D de tu producto para un renderizado más preciso.

Conceptualización Creativa y Prototipado de Storyboards

Los guiones gráficos y las presentaciones cobran vida cuando puedes mostrar a las partes interesadas video real en lugar de fotogramas estáticos. Prototipa rápidamente escenas con múltiples personajes subiendo imágenes de referencia de cada personaje y describiendo la interacción. Itera en 480p para mayor velocidad, luego renderiza el concepto aprobado en 1080p.

Videos Musicales y Cortometrajes

Combina múltiples referencias de personajes con prompts atmosféricos para generar secuencias de video musical. Con la generación de audio nativo, incluso puedes producir paisajes sonoros ambientales sincronizados junto con la salida visual — y luego superponer tu propia banda sonora en posproducción.

Series de Video con Estética Consistente

Mantén una estética visual unificada en toda una serie de contenido. Sube las mismas imágenes de referencia de estilo para cada generación y asegúrate de que el aspecto y la sensación de tu marca permanezcan fijos, ya sea que estés produciendo 5 videos o 50.

Comienza a generar contenido de video consistente →

Precios y Acceso a la API de Vidu Q3 Reference-to-Video

WaveSpeedAI ofrece Vidu Q3 Reference-to-Video con facturación sencilla por segundo y sin necesidad de suscripción.

Tabla de Precios

Duración480p720p / 1080p
5s$0.35$0.77
10s$0.70$1.54
15s$1.05$2.31

Tarifas de facturación:

  • 480p: $0.07 por segundo
  • 720p / 1080p: $0.154 por segundo

Integración con la API

Integra Vidu Q3 Reference-to-Video directamente en tu aplicación con la API REST de WaveSpeedAI. Sin tiempos de espera en frío, sin aprovisionamiento de GPU — solo envía una solicitud y recibe el video.

import wavespeed

output = wavespeed.run(
    "vidu/q3/reference-to-video",
    {
        "prompt": "Two characters walking through a sunlit forest, cinematic lighting, gentle breeze",
        "images": [
            "https://example.com/character1.jpg",
            "https://example.com/character2.jpg"
        ],
        "resolution": "1080p",
        "duration": 10
    },
)

print(output["outputs"][0])  # Video URL

Ventajas de WaveSpeedAI:

  • Sin tiempos de espera en frío — Los modelos están siempre activos y listos para generar
  • Pago por uso — Sin suscripciones, sin compromisos mínimos
  • API REST — Integración HTTP estándar que funciona con cualquier lenguaje o framework

Explora la colección completa de modelos Vidu en WaveSpeedAI para obtener capacidades adicionales de generación de video.

Consejos para Obtener los Mejores Resultados con Vidu Q3 Reference-to-Video

  1. Usa imágenes de referencia claras y bien iluminadas — Las entradas de alta calidad con sujetos bien definidos producen la preservación de identidad más precisa. Evita imágenes fuente borrosas o con filtros muy intensos.

  2. Comienza en 480p para iteración rápida — Prueba tu combinación de prompt y referencia en resolución más baja antes de comprometerte con un renderizado en 1080p. Esto ahorra tiempo y costo.

  3. Proporciona múltiples ángulos cuando sea posible — Si quieres que el modelo comprenda la apariencia completa de un personaje, incluye imágenes de referencia de frente y de perfil. Más referencias le dan al modelo una comprensión más rica de la estructura 3D de tu sujeto.

  4. Escribe prompts detallados y específicos — En lugar de “dos personas hablando”, prueba “dos personajes sentados en una mesa de café, luz cálida de tarde, uno gesticulando mientras habla, poca profundidad de campo”. Usa el Potenciador de Prompts incorporado si deseas mejora automática.

  5. Usa el parámetro de semilla para consistencia — Una vez que encuentres un resultado que te guste, fija la semilla e itera sobre resolución, duración o ajustes de prompt manteniendo la misma dirección creativa.

  6. Desactiva el audio cuando añadas tu propia banda sonora — Establece generate_audio en false si planeas agregar música personalizada o voz en off en posproducción para evitar capas de audio conflictivas.

Preguntas Frecuentes sobre Vidu Q3 Reference-to-Video

¿Qué es Vidu Q3 Reference-to-Video?

Vidu Q3 Reference-to-Video es un modelo de generación de video IA que crea videos cinematográficos con múltiples entidades consistentes a partir de 1 a 4 imágenes de referencia combinadas con un texto descriptivo, con soporte para resoluciones de hasta 1080p y duraciones de hasta 16 segundos con audio sincronizado opcional.

¿Cuánto cuesta Vidu Q3 Reference-to-Video?

Los precios comienzan en $0.07 por segundo para 480p y $0.154 por segundo para 720p/1080p en WaveSpeedAI, sin necesidad de suscripción — solo pagas por lo que generas.

¿Puedo usar Vidu Q3 Reference-to-Video a través de la API?

Sí. WaveSpeedAI proporciona una API REST para Vidu Q3 Reference-to-Video sin tiempos de espera en frío. Puedes integrarlo en cualquier aplicación utilizando el SDK de Python de WaveSpeed o solicitudes HTTP estándar.

¿Cuántas imágenes de referencia puedo usar con Vidu Q3 Reference-to-Video?

Puedes subir de 1 a 4 imágenes de referencia por generación. Cada imagen ayuda al modelo a comprender los personajes, estilos o elementos visuales que deseas preservar en el video de salida.

¿Vidu Q3 Reference-to-Video genera audio?

Sí. Vidu Q3 incluye generación de audio sincronizado nativo habilitada de forma predeterminada, produciendo sonido ambiental y atmósfera junto con el video. Puedes desactivar esta función si prefieres agregar tu propio audio en posproducción.


¿Listo para crear video de IA con personajes consistentes a partir de tus propias imágenes de referencia? Prueba Vidu Q3 Reference-to-Video en WaveSpeedAI hoy — sin tiempos de espera en frío, sin suscripción, solo resultados.