Apresentando Vidu Q3 Reference To Video no WaveSpeedAI

Vidu Q3 Reference-to-Video: Geração de Vídeo Multi-Entidade Consistente a partir de Imagens de Referência

Criar vídeos gerados por IA com personagens consistentes tem sido um dos maiores desafios na IA generativa — até agora. O Vidu Q3 Reference-to-Video Mix resolve esse desafio gerando vídeos cinematográficos e multi-entidade consistentes a partir de 1 a 4 imagens de referência combinadas com um prompt de texto. Disponível hoje no WaveSpeedAI sem cold starts e com precificação por segundo, este modelo permite que criadores, profissionais de marketing e desenvolvedores produzam conteúdo de vídeo orientado a personagens onde cada sujeito permanece visualmente coerente do primeiro ao último quadro.

Desenvolvido pela ShengShu Technology — a equipe por trás da plataforma de geração de vídeo Vidu, classificada entre as melhores do mundo — o Q3 Reference-to-Video representa um salto em relação à animação de imagem única. Em vez de torcer para que seu personagem pareça o mesmo em diferentes clipes, você fornece imagens de referência que fixam identidade, estilo e aparência, e depois descreve a cena desejada. O resultado é um vídeo pronto para produção com áudio sincronizado, resolução de até 1080p e duração de até 16 segundos.

Experimente o Vidu Q3 Reference-to-Video no WaveSpeedAI →

Como Funciona o Vidu Q3 Reference-to-Video

O Vidu Q3 Reference-to-Video utiliza a arquitetura proprietária U-ViT (Universal Vision Transformer) da ShengShu, especificamente projetada para consistência multi-entidade. Veja o fluxo de trabalho:

Faça upload de 1 a 4 imagens de referência — Elas estabelecem a identidade visual de personagens, objetos ou elementos de estilo que você deseja preservar no vídeo de saída.
Escreva um prompt de texto — Descreva a cena, a ação, o movimento de câmera e a atmosfera. Um Aprimorador de Prompt integrado pode melhorar automaticamente suas descrições para uma saída mais rica.
Configure as definições de saída — Escolha sua proporção de tela (16:9, 9:16, 1:1 e mais), resolução (480p, 720p ou 1080p) e duração (até 16 segundos).
Gere — O modelo combina todas as imagens de referência em um vídeo coeso e com movimento consistente, com áudio sincronizado opcional.

O que diferencia este modelo dos modelos padrão de imagem para vídeo é a fusão de múltiplas referências. Os modelos tradicionais animam uma única imagem. O Vidu Q3 Reference-to-Video combina múltiplas imagens de origem — personagens diferentes, ângulos diferentes, referências de estilo diferentes — em uma única cena unificada, preservando a identidade distinta de cada entidade ao longo do clipe.

Especificações Técnicas

Parâmetro	Detalhes
Entrada	1–4 imagens de referência + prompt de texto
Resolução	480p, 720p, 1080p
Duração	Até 16 segundos
Proporções de Tela	16:9, 9:16, 1:1 e mais
Áudio	Geração de áudio sincronizado nativo (opcional)
Reprodutibilidade	Parâmetro de seed para resultados consistentes

Principais Recursos do Vidu Q3 Reference-to-Video Mix

Consistência de personagens multi-entidade — Faça upload de imagens de referência separadas para personagens diferentes e ambos aparecerão na saída com suas identidades preservadas. Chega de “desvio de personagem” entre quadros.
Geração audiovisual nativa — O Vidu Q3 é o primeiro modelo de vídeo de IA de formato longo da indústria a entregar áudio e vídeo sincronizados em uma única passagem, incluindo som ambiente, sincronização labial pronta para diálogo e áudio atmosférico.
Renderização nativa em 1080p — Saída em Full HD sem upscaling artificial. Os quadros são limpos, detalhados e bem balanceados mesmo em cenas de alto contraste.
Até 16 segundos por clipe — A maior duração máxima entre os principais modelos de vídeo com IA, dando tempo suficiente para demonstrações completas de produtos, arcos narrativos e sequências cinematográficas.
Aprimorador de Prompt integrado — Enriquece automaticamente as descrições de cena para uma saída mais detalhada e cinematográfica sem exigir experiência em engenharia de prompts.
Saída determinística com controle de seed — Fixe um resultado específico e itere sobre mudanças de resolução ou duração mantendo a mesma direção criativa.

Melhores Casos de Uso para o Vidu Q3 Reference-to-Video

Narrativa e Animação Orientadas a Personagens

Crie séries animadas com personagens consistentes em múltiplos episódios. Faça upload de folhas de referência de personagens e gere cena após cena onde seu protagonista parece idêntico a cada vez. A ShengShu demonstrou essa capacidade no SXSW 2026, exibindo a primeira solução de IA do mundo para produção de séries animadas — e o Vidu Q3 Reference-to-Video é o motor por trás disso.

Conteúdo para Redes Sociais com Personagens de Marca Consistentes

Mascotes de marca e avatares de influenciadores precisam parecer os mesmos em todo conteúdo. Faça upload das imagens de referência do personagem da sua marca uma vez e gere dezenas de vídeos de formato curto para TikTok, Instagram Reels ou YouTube Shorts — todos visualmente consistentes, todos produzidos em minutos em vez de dias.

Marketing de Produto e Vídeo para E-Commerce

Coloque seu produto em cenas dinâmicas e cinematográficas sem precisar de um estúdio fotográfico. Faça upload de fotos do produto de múltiplos ângulos, escreva um prompt descrevendo o contexto de estilo de vida e gere vídeos de marketing que mostram seu produto em ação. A entrada de múltiplas referências ajuda o modelo a entender a estrutura 3D do seu produto para uma renderização mais precisa.

Conceituação Criativa e Prototipagem de Storyboard

Decks de apresentação e storyboards ganham vida quando você pode mostrar aos stakeholders vídeos reais em vez de quadros estáticos. Prototipe rapidamente cenas com múltiplos personagens fazendo upload de imagens de referência de cada personagem e descrevendo a interação. Itere em 480p para velocidade e depois renderize o conceito aprovado em 1080p.

Videoclipes e Curtas-Metragens

Combine múltiplas referências de personagens com prompts atmosféricos para gerar sequências de videoclipes. Com a geração de áudio nativa, você pode até produzir paisagens sonoras ambiente sincronizadas junto com a saída visual — e depois adicionar sua própria trilha sonora na pós-produção.

Série de Vídeos com Estética Visual Consistente

Mantenha uma estética visual unificada em toda uma série de conteúdo. Faça upload das mesmas imagens de referência de estilo para cada geração para garantir que o visual e a identidade da sua marca permaneçam fixos, seja produzindo 5 vídeos ou 50.

Comece a gerar conteúdo de vídeo consistente →

Preços e Acesso à API do Vidu Q3 Reference-to-Video

O WaveSpeedAI oferece o Vidu Q3 Reference-to-Video com faturamento simples por segundo e sem necessidade de assinatura.

Tabela de Preços

Duração	480p	720p / 1080p
5s	$0,35	$0,77
10s	$0,70	$1,54
15s	$1,05	$2,31

Taxas de faturamento:

480p: $0,07 por segundo
720p / 1080p: $0,154 por segundo

Integração via API

Integre o Vidu Q3 Reference-to-Video diretamente em sua aplicação com a API REST do WaveSpeedAI. Sem cold starts, sem provisionamento de GPU — basta enviar uma solicitação e receber o vídeo de volta.

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "images": [
        "https://interactive-examples.mdn.mozilla.net/media/cc0-images/painted-hand-298-332.jpg"
    ],
    "aspect_ratio": "16:9",
    "resolution": "720p",
    "duration": 5,
    "generate_audio": True
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/vidu/q3/reference-to-video", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

Vantagens do WaveSpeedAI:

Sem cold starts — Os modelos estão sempre aquecidos e prontos para gerar
Pague pelo uso — Sem assinaturas, sem compromissos mínimos
API REST — Integração HTTP padrão que funciona com qualquer linguagem ou framework

Explore a coleção completa de modelos Vidu no WaveSpeedAI para capacidades adicionais de geração de vídeo.

Dicas para Melhores Resultados com o Vidu Q3 Reference-to-Video

Use imagens de referência nítidas e bem iluminadas — Entradas de alta qualidade com sujeitos distintos produzem a preservação de identidade mais precisa. Evite imagens de origem borradas ou com filtros pesados.
Comece em 480p para iteração rápida — Teste sua combinação de prompt e referência em resolução mais baixa antes de comprometer-se com uma renderização em 1080p. Isso economiza tempo e custo.
Forneça múltiplos ângulos quando possível — Se você quiser que o modelo entenda a aparência completa de um personagem, inclua imagens de referência de frente e de perfil. Mais referências dão ao modelo uma compreensão mais rica da estrutura 3D do seu sujeito.
Escreva prompts detalhados e específicos — Em vez de “duas pessoas conversando,” tente “dois personagens sentados em uma mesa de café, luz quente da tarde, um gesticulando enquanto fala, profundidade de campo rasa.” Use o Aprimorador de Prompt integrado se quiser melhoria automática.
Use o parâmetro de seed para consistência — Depois de encontrar um resultado que você goste, fixe o seed e itere sobre resolução, duração ou ajustes de prompt mantendo a mesma direção criativa.
Desative o áudio ao adicionar sua própria trilha sonora — Defina generate_audio como false se você planeja adicionar música personalizada ou narração na pós-produção para evitar camadas de áudio conflitantes.

Perguntas Frequentes sobre o Vidu Q3 Reference-to-Video

O que é o Vidu Q3 Reference-to-Video?

O Vidu Q3 Reference-to-Video é um modelo de geração de vídeo com IA que cria vídeos cinematográficos e multi-entidade consistentes a partir de 1 a 4 imagens de referência combinadas com um prompt de texto, suportando resoluções de até 1080p e durações de até 16 segundos com áudio sincronizado opcional.

Quanto custa o Vidu Q3 Reference-to-Video?

Os preços começam em $0,07 por segundo para 480p e $0,154 por segundo para 720p/1080p no WaveSpeedAI, sem assinatura necessária — você paga apenas pelo que gerar.

Posso usar o Vidu Q3 Reference-to-Video via API?

Sim. O WaveSpeedAI fornece uma API REST para o Vidu Q3 Reference-to-Video sem cold starts. Você pode integrá-lo em qualquer aplicação usando o WaveSpeed Python SDK ou solicitações HTTP padrão.

Quantas imagens de referência posso usar com o Vidu Q3 Reference-to-Video?

Você pode fazer upload de 1 a 4 imagens de referência por geração. Cada imagem ajuda o modelo a entender personagens, estilos ou elementos visuais que você deseja preservar no vídeo de saída.

O Vidu Q3 Reference-to-Video gera áudio?

Sim. O Vidu Q3 inclui geração de áudio sincronizado nativo habilitada por padrão, produzindo som ambiente e atmosfera junto com o vídeo. Você pode desativar esse recurso se preferir adicionar seu próprio áudio na pós-produção.

Pronto para criar vídeos de IA com personagens consistentes a partir de suas próprias imagens de referência? Experimente o Vidu Q3 Reference-to-Video no WaveSpeedAI hoje — sem cold starts, sem assinatura, apenas resultados.