Apresentando o Alibaba WAN 2.7 Reference To Video no WaveSpeedAI

Wan 2.7 Reference-to-Video: Crie Vídeos com Personagens Consistentes a partir de Múltiplas Referências

Manter a identidade de personagens em clipes de vídeo gerados por IA tem sido um dos problemas mais difíceis na geração de vídeo — até agora. O Wan 2.7 Reference-to-Video do Tongyi Lab da Alibaba resolve isso permitindo que você envie múltiplos vídeos e imagens de referência, e então gere novas cenas onde personagens, objetos e estilos visuais permanecem perfeitamente consistentes. Disponível agora no WaveSpeedAI sem cold starts e com preços acessíveis por uso, este modelo viabiliza a geração de vídeo com múltiplos personagens em qualidade de produção através de uma simples API REST.

Seja você um cineasta pré-visualizando cenas complexas, uma marca criando campanhas com porta-vozes, ou um criador de conteúdo construindo narrativas com múltiplos planos, o Wan 2.7 Reference-to-Video elimina o problema de inconsistência que tem prejudicado os fluxos de trabalho de vídeo com IA.

Como Funciona o Wan 2.7 Reference-to-Video

O Wan 2.7 Reference-to-Video é construído sobre a arquitetura Diffusion Transformer (DiT) da Alibaba com um mecanismo de Full Attention que processa relações espaciais e temporais em toda a sequência de vídeo simultaneamente. É por isso que a identidade do personagem permanece estável durante toda a duração do clipe — o modelo não gera quadro a quadro, ele entende a sequência inteira de uma vez.

O fluxo de trabalho é simples:

Faça upload dos vídeos de referência — forneça um ou mais vídeos fonte contendo os personagens ou elementos visuais que você deseja preservar.
Adicione uma imagem de referência opcional — complemente com uma imagem estática para orientação visual adicional.
Escreva seu prompt — descreva a nova cena usando linguagem natural, referenciando personagens por posição (ex.: “O personagem do Vídeo 1 caminha por um jardim enquanto o Vídeo 2 observa de um banco”).
Gere — o modelo produz um novo vídeo que coloca seus personagens referenciados na cena descrita com identidade preservada, estilo e movimento coerente.

O modelo suporta até 5 entradas de referência combinadas (vídeos e imagens juntos), saída em resolução 720p ou 1080p, proporções incluindo 16:9, e durações de clipes de 5, 10 ou 15 segundos. Um sistema único de indexação de prompts permite controlar com precisão qual referência aparece onde — os vídeos são numerados primeiro (Vídeo 1, Vídeo 2), depois as imagens continuam a sequência (Imagem 3, Imagem 4).

Principais Recursos do Wan 2.7 Reference-to-Video

Suporte a múltiplos vídeos de referência — Combine personagens, objetos ou elementos visuais de múltiplos vídeos fonte em uma única cena coerente. Nenhum outro modelo desta categoria lida com referências de vídeo de múltiplas fontes com tanta precisão.
Consistência de personagem com identidade bloqueada — A arquitetura Full Attention preserva traços faciais, roupas, proporções corporais e detalhes estilísticos ao longo do clipe gerado, sem o desvio de identidade comum em modelos de vídeo baseados em difusão mais antigos.
Indexação de prompts para controle preciso — Referencie personagens específicos usando a sintaxe “Vídeo 1”, “Vídeo 2”, “Imagem 3” no seu prompt. Isso lhe dá controle de nível de diretor sobre quem faz o quê na cena gerada.
Suporte a prompt negativo — Especifique elementos a excluir da saída, prevenindo mesclagem visual indesejada entre as fontes de referência.
Expansão automática de prompt — Ative a expansão de prompt para deixar o modelo enriquecer prompts mais curtos com detalhes adicionais, produzindo saídas mais ricas sem engenharia manual de prompts.
Saída em 1080p — Gere em resolução Full HD para resultados prontos para produção, ou use 720p para iteração mais rápida durante o processo criativo.
Até 15 segundos por clipe — Gere cenas mais longas que dão aos personagens tempo para se mover, interagir e se expressar — suficiente para shorts de redes sociais e cortes comerciais.

Melhores Casos de Uso do Wan 2.7 Reference-to-Video

Narrativas com Múltiplos Personagens e Curtas-Metragens

Coloque personagens de vídeos de referência separados em cenas compartilhadas que eles nunca filmaram juntos. Um cineasta pode filmar atores individualmente, depois usar o Wan 2.7 R2V para gerar cenas de interação — personagens sentados juntos, caminhando lado a lado, ou tendo uma conversa em um novo ambiente. Isso reduz dramaticamente os custos de produção para projetos independentes e pré-visualização.

Campanhas de Vídeo com Porta-Vozes de Marca

Equipes de marketing podem gerar dezenas de variações de vídeo dentro da identidade da marca com um porta-voz ou mascote consistente. Faça upload de um vídeo de referência do seu personagem de marca uma vez, depois gere-o em diferentes cenários — em uma cozinha, num escritório, ao ar livre — mantendo perfeita identidade visual durante toda a campanha. Sem refilmagens necessárias.

Conteúdo para Redes Sociais em Escala

Criadores de conteúdo podem produzir vídeos curtos com personagens consistentes em volume. Pegue um vídeo de referência de um personagem ou persona recorrente, descreva novos cenários, e gere conteúdo novo diariamente. A preservação de identidade garante que sua audiência reconheça o personagem em cada publicação, construindo consistência de marca sem o overhead de produção.

Demos de Produtos e Vídeos Explicativos

Combine um vídeo de referência de um apresentador com imagens de produtos para gerar vídeos de demonstração polidos. O apresentador mantém sua aparência e estilo enquanto interage com produtos em novos contextos — perfeito para listagens de e-commerce, lançamentos de produtos e conteúdo tutorial.

Conceituação Criativa e Storyboards

Diretores e equipes criativas podem prototipar rapidamente cenas com múltiplos personagens antes de se comprometer com a produção completa. Gere 10 variações de uma cena com diferentes enquadramentos, iluminação ou interações de personagens em minutos. Use 720p para iteração rápida, depois renderize o conceito vencedor em 1080p.

Conteúdo de Fãs e Crossovers de Personagens

Combine elementos visuais de diferentes fontes em uma única cena coerente. Personagens de diferentes vídeos de referência podem interagir naturalmente, abrindo possibilidades criativas para fan art, mashups e narrativa visual experimental.

Conteúdo de Treinamento e Educacional

Gere conteúdo de vídeo consistente com instrutor para múltiplas aulas. Faça upload de uma referência do instrutor uma vez, depois produza-o em diferentes cenários educacionais — em um quadro branco, em um laboratório, no campo — mantendo continuidade visual em toda uma série de cursos.

Preços e Acesso à API do Wan 2.7 Reference-to-Video

O WaveSpeedAI oferece o Wan 2.7 Reference-to-Video com preços simples por geração:

Duração	720p	1080p
5 segundos	$1,00	$1,60
10 segundos	$1,50	$2,40
15 segundos	$2,00	$3,20

As renderizações em 1080p custam 1,6× a taxa de 720p. O preço inclui um custo fixo para o processamento do vídeo de referência.

Começar leva minutos. Instale o WaveSpeed SDK e faça sua primeira chamada de API:

import wavespeed

output = wavespeed.run(
    "alibaba/wan-2.7/reference-to-video",
    {
        "prompt": "The character in Video 1 walks through a sunlit garden, smiling and looking at the flowers",
        "videos": ["https://example.com/reference-video.mp4"],
        "resolution": "720p",
        "duration": 5,
    },
)

print(output["outputs"][0])

O WaveSpeedAI executa o Wan 2.7 Reference-to-Video com zero cold starts — sua primeira requisição é tão rápida quanto a centésima. Sem atrasos de provisionamento de GPU, sem cobranças de computação ociosa. Você paga apenas pelo que gera.

Experimente o Wan 2.7 Reference-to-Video agora →

Dicas para Melhores Resultados com o Wan 2.7 Reference-to-Video

Use vídeos de referência claros e distintos. Quanto mais visualmente distintos forem os vídeos de referência, melhor o modelo preserva a identidade de cada personagem na saída. Evite referências com sujeitos de aparência similar.
Referencie personagens pelo índice no seu prompt. Sempre use “Vídeo 1”, “Vídeo 2”, etc. para especificar qual personagem faz o quê. A numeração segue a ordem de upload para os vídeos, depois continua para as imagens de referência.
Comece com 720p para iteração. Teste a composição da cena, a formulação do prompt e o posicionamento dos personagens em 720p antes de se comprometer com uma renderização final em 1080p. Isso economiza tempo e custo.
Use prompts negativos para evitar mesclagem. Se você notar que estilos visuais estão se misturando entre fontes de referência, adicione um prompt negativo para excluir elementos indesejados específicos.
Ative a expansão de prompt para prompts curtos. Se seu prompt for breve ou carecer de detalhes de cena, ativar a expansão de prompt permite que o modelo preencha detalhes cinematográficos automaticamente.
Mantenha os vídeos de referência curtos e focados. Clipes de referência que apresentam claramente o sujeito que você deseja preservar produzirão melhor consistência de identidade do que filmagens longas e variadas.

Perguntas Frequentes sobre o Wan 2.7 Reference-to-Video

O que é o Wan 2.7 Reference-to-Video?

O Wan 2.7 Reference-to-Video é um modelo de geração de vídeo com IA da Alibaba que cria novas cenas de vídeo preservando a identidade, aparência e estilo dos personagens dos seus vídeos e imagens de referência.

Quanto custa o Wan 2.7 Reference-to-Video?

O preço começa em $1,00 por clipe de 5 segundos em 720p, chegando a $3,20 para um vídeo de 15 segundos em 1080p. Não há taxas de assinatura — você paga por geração no WaveSpeedAI.

Posso usar o Wan 2.7 Reference-to-Video via API?

Sim. O Wan 2.7 Reference-to-Video está disponível como uma API REST no WaveSpeedAI sem cold starts, com preços por uso e o WaveSpeed Python SDK para fácil integração.

Quantos vídeos de referência posso usar de uma vez?

Você pode fornecer até 5 entradas de referência combinadas (vídeos e imagens juntos). Cada referência é numerada sequencialmente no seu prompt para controle preciso sobre qual personagem aparece onde.

Qual a diferença entre o Wan 2.7 Reference-to-Video e o Wan 2.7 Image-to-Video?

O Wan 2.7 Image-to-Video anima uma única imagem de referência em vídeo. O Reference-to-Video aceita múltiplas referências de vídeo, preservando identidade entre as fontes e permitindo cenas com múltiplos personagens com identidade consistente — uma capacidade fundamentalmente diferente para fluxos de trabalho de produção.

Comece a Criar Vídeos com Personagens Consistentes com o Wan 2.7

O Wan 2.7 Reference-to-Video traz uma capacidade que era anteriormente impossível na geração de vídeo com IA: preservação confiável de identidade de múltiplos personagens a partir de referências de vídeo. Combinado com a inferência instantânea e a API simples do WaveSpeedAI, está pronto para fluxos de trabalho de produção hoje.

Explore o conjunto completo do Wan 2.7 no WaveSpeedAI — incluindo Text-to-Video, Image-to-Video, Video Edit e Video Extend.

Experimente o Wan 2.7 Reference-to-Video no WaveSpeedAI →