Apresentando xAI Grok Imagine Video Reference To Video no WaveSpeedAI

Grok Imagine Video Reference-to-Video: Gere Vídeos Consistentes com IA a Partir de Múltiplas Imagens de Referência

E se você pudesse fornecer a um modelo de IA sete imagens de referência diferentes — um personagem, um local, um conjunto de adereços — e receber de volta um único vídeo coerente que preserva cada detalhe visual? É exatamente isso que o Grok Imagine Video Reference-to-Video oferece. Desenvolvido pela xAI, este modelo de referência-para-vídeo com múltiplas imagens gera clipes de vídeo dinâmicos que mantêm identidade, estilo e composição de cena em cada frame, e agora está disponível no WaveSpeedAI sem cold starts e com preços por uso.

Em um cenário onde a geração de vídeo com IA evolui rapidamente — com o Grok Imagine recentemente conquistando o 1º lugar no Artificial Analysis Video Arena tanto para text-to-video quanto para image-to-video — a variante reference-to-video vai além, permitindo que você controle exatamente o que aparece no seu vídeo gerado usando até sete imagens de origem.

Como Funciona o Grok Imagine Video Reference-to-Video

A maioria dos geradores de vídeo com IA aceita uma única imagem ou prompt de texto. O Grok Imagine Video Reference-to-Video supera essa limitação aceitando 1 a 7 imagens de referência junto com um prompt de texto descrevendo o movimento desejado, o movimento da câmera e a cena.

Veja o fluxo de trabalho:

Forneça imagens de referência — Carregue até 7 imagens via URL. Podem incluir personagens, objetos, ambientes ou referências de estilo.
Escreva um prompt de movimento — Descreva como a cena deve se mover. Use @image1, @image2, etc. para referenciar imagens específicas carregadas no seu prompt.
Escolha duração e resolução — Selecione 6 ou 10 segundos de saída em 720p ou 480p.
Gere — O modelo sintetiza todas as referências em um único vídeo coeso com movimento suave e natural.

Por baixo dos panos, o Grok Imagine Video é alimentado pelo motor Aurora da xAI, uma arquitetura autoregressiva de mistura de especialistas treinada em bilhões de exemplos. O modelo prevê tokens de imagem sequencialmente, o que lhe confere controle preciso sobre a geração e ajuda a manter a consistência visual entre frames — fundamental para cenários de múltiplas referências onde a preservação de identidade é mais importante.

Experimente o Grok Imagine Video Reference-to-Video no WaveSpeedAI →

Principais Recursos do Grok Imagine Video Reference-to-Video

Entrada de múltiplas imagens de referência (até 7 imagens) — Forneça ao modelo um personagem de uma foto, um fundo de outra e adereços de várias outras. O modelo os compõe em uma cena unificada.
Preservação de identidade e estilo — Personagens, objetos e ambientes mantêm aparência consistente ao longo do vídeo gerado. Traços faciais, detalhes de roupas e proporções permanecem fixos entre os frames.
Referências de imagem endereçáveis — Use @image1, @image2, etc. no seu prompt para direcionar exatamente como cada imagem de referência influencia a saída.
Opções flexíveis de duração — Gere clipes de 6 segundos para testes rápidos e conteúdo social, ou vídeos de 10 segundos para cenas mais completas.
Resolução 720p e 480p — Escolha maior qualidade para saída final ou processamento 480p mais rápido para iteração ágil.
Acesso via API REST no WaveSpeedAI — Sem cold starts, inferência instantânea e cobrança simples por uso a $0,05 por segundo.

Melhores Casos de Uso do Grok Imagine Video Reference-to-Video

Vídeos de Personagens Consistentes em Múltiplos Takes

Projetos de cinema e animação exigem consistência de personagens entre cenas. Forneça ao modelo imagens de referência de um personagem em múltiplos ângulos — frontal, perfil, três quartos — e gere clipes de vídeo onde esse personagem se move naturalmente mantendo sua aparência exata. Isso é inestimável para criadores que desenvolvem conteúdo episódico ou narrativas com múltiplas cenas sem um pipeline de produção completo.

Vídeos de Demonstração de Produtos a Partir de Fotos de Produtos

Equipes de e-commerce podem transformar um conjunto de fotos estáticas de produtos em vídeos dinâmicos de demonstração. Carregue imagens de um produto de diferentes ângulos, em diferentes cenários ou ao lado de itens complementares, e então descreva o movimento — uma rotação lenta, uma sequência de unboxing ou uma demonstração lifestyle. O modelo preserva os detalhes do produto fielmente ao longo do vídeo gerado.

Criação de Conteúdo para Redes Sociais em Escala

Criadores de conteúdo para TikTok, Instagram Reels e YouTube Shorts podem gerar clipes de vídeo envolventes a partir de coleções de imagens em segundos. Combine a foto de um criador com um fundo de marca e imagens de produtos para produzir conteúdo de vídeo alinhado à marca sem contratar um videógrafo ou editar footage manualmente.

Composição de Cena em Múltiplos Ângulos

Profissionais de visualização arquitetônica, design de interiores e imobiliário podem fornecer imagens de referência de diferentes ângulos de um espaço e então gerar vídeos no estilo walkthrough que mantêm precisão espacial e consistência de design. Descreva o movimento da câmera pelo espaço, e o modelo sintetiza uma cena coesa.

Vídeos de Marketing Consistentes com a Marca

Equipes de marketing que trabalham com diretrizes rigorosas de marca podem fornecer ativos da marca — logotipos, paletas de cores, imagens de produtos, fotos de porta-vozes — como imagens de referência. O modelo gera conteúdo de vídeo que permanece alinhado à marca sem exigir alinhamento manual de pós-produção.

Prototipagem de Storyboard para Vídeo

Diretores criativos e artistas de storyboard podem carregar frames individuais de storyboard como imagens de referência e gerar protótipos de vídeo aproximados que mostram como uma sequência pode fluir. Isso acelera dramaticamente o processo de revisão de pré-produção para projetos comerciais e narrativos.

Preços e Acesso à API do Grok Imagine Video Reference-to-Video

O Grok Imagine Video Reference-to-Video está disponível no WaveSpeedAI com cobrança direta por segundo:

Duração	Custo
6 segundos	$0,30
10 segundos	$0,50

Taxa de cobrança: $0,05 por segundo, com base na duração selecionada.

Isso é significativamente mais acessível do que muitas plataformas concorrentes. Combinado com sem cold starts e inferência instantânea do WaveSpeedAI, você obtém resultados rápidos sem pagar por tempo de computação ocioso.

Exemplo de Código da API

import json
import os
import time
from urllib.request import Request, urlopen

api_key = os.environ["WAVESPEED_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
payload = {
    "prompt": "A cinematic ocean wave at sunrise, highly detailed",
    "images": [
        "https://interactive-examples.mdn.mozilla.net/media/cc0-videos/flower.mp4"
    ],
    "duration": 6,
    "resolution": "720p"
}

def request_json(url, data=None):
    request = Request(url, data=data, headers=headers, method="POST" if data else "GET")
    with urlopen(request) as response:
        return json.load(response)

# 1. Submit the prediction.
submit_body = request_json("https://api.wavespeed.ai/api/v3/x-ai/grok-imagine-video/reference-to-video", json.dumps(payload).encode())
task = submit_body.get("data", submit_body)
prediction_id = task.get("id")
if not prediction_id:
    raise RuntimeError("Submission response did not contain a prediction id")
result_url = task.get("urls", {}).get("get") or f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}/result"

# 2. Poll until the prediction finishes.
while True:
    body = request_json(result_url)
    result = body.get("data", body)
    status = result.get("status")
    if status == "completed":
        print(result.get("outputs", []))
        break
    if status in {"failed", "cancelled", "timeout"}:
        raise RuntimeError(result)
    if status not in {"created", "processing"}:
        raise RuntimeError(f"Unexpected status: {status}")
    time.sleep(2)

Parâmetros da API

Parâmetro	Obrigatório	Descrição
`images`	Sim	Array de 1 a 7 URLs de imagens de referência
`prompt`	Sim	Descrição do movimento com referências @image opcionais
`duration`	Não	6 ou 10 segundos (padrão varia)
`resolution`	Não	`720p` (padrão) ou `480p`

Comece a usar o Grok Imagine Video Reference-to-Video →

Dicas para Melhores Resultados com o Grok Imagine Video

Use imagens de referência de alta qualidade e bem iluminadas. A preservação de identidade do modelo é tão boa quanto a entrada. Fotos nítidas e uniformemente iluminadas produzem saída de vídeo mais limpa e consistente.
Referencie explicitamente as imagens no seu prompt. Use @image1, @image2, etc. para indicar ao modelo qual referência corresponde a qual elemento na sua cena. Isso lhe dá controle composicional preciso.
Mantenha referências e prompt alinhados. Se suas imagens de referência mostram um personagem específico, descreva as ações daquele personagem no prompt. Referências e prompts desalinhados produzem saída confusa.
Comece com menos referências e adicione mais gradualmente. Comece com 2 a 3 imagens para estabelecer a cena principal, depois adicione referências para detalhes adicionais. Isso ajuda a identificar quais imagens contribuem com o quê para a saída final.
Teste primeiro com clipes de 6 segundos. Use a duração menor para iterar no seu prompt e combinação de referências antes de se comprometer com gerações de 10 segundos. A $0,30 por teste, a iteração rápida é acessível.
Use 480p para rascunhos e 720p para finais. Use resolução menor durante a fase de exploração criativa e então mude para 720p na saída final.

Explore Modelos Grok Imagine Relacionados no WaveSpeedAI

O Grok Imagine Video Reference-to-Video faz parte de uma família mais ampla de modelos de vídeo e imagem da xAI disponíveis no WaveSpeedAI:

Grok Imagine Video Image-to-Video — Gere vídeo a partir de uma única imagem de entrada
Grok Imagine Video Text-to-Video — Crie vídeo apenas a partir de prompts de texto
Grok Imagine Video Extend — Estenda vídeos existentes com continuação suave
Grok Imagine Video Edit — Edite vídeos existentes com instruções de texto
Grok Imagine Image Text-to-Image — Gere imagens a partir de prompts de texto

Perguntas Frequentes sobre o Grok Imagine Video Reference-to-Video

O que é o Grok Imagine Video Reference-to-Video?

O Grok Imagine Video Reference-to-Video é o modelo de referência com múltiplas imagens da xAI que gera vídeos a partir de até 7 imagens de referência, preservando identidade, estilo e composição de cena com movimento natural e suave.

Quanto custa o Grok Imagine Video Reference-to-Video?

O preço é de $0,05 por segundo — $0,30 para um vídeo de 6 segundos e $0,50 para um vídeo de 10 segundos. A cobrança é baseada na duração selecionada e não há taxas de assinatura no WaveSpeedAI. Você paga apenas pelo que gera.

Posso usar o Grok Imagine Video Reference-to-Video via API?

Sim. O Grok Imagine Video Reference-to-Video está disponível como API REST no WaveSpeedAI sem cold starts, inferência instantânea e cobrança simples por uso. Você pode integrá-lo a qualquer aplicação usando o WaveSpeed Python SDK ou requisições HTTP diretas.

Quantas imagens de referência posso usar com o Grok Imagine Video?

Você pode fornecer entre 1 e 7 imagens de referência. Cada imagem pode representar um elemento diferente — personagens, objetos, fundos ou referências de estilo — e você pode endereçá-las individualmente no seu prompt usando @image1 a @image7.

Como o Grok Imagine Video se compara a outros modelos de vídeo com IA?

O Grok Imagine recentemente conquistou o 1º lugar no Artificial Analysis Video Arena tanto para geração text-to-video quanto image-to-video, superando Runway Gen-4.5, Sora 2 Pro e Google Veo 3.1. A variante reference-to-video adiciona controle com múltiplas imagens que a maioria dos concorrentes limita a 4 ou menos entradas de referência.

Pronto para gerar vídeos consistentes e com preservação de identidade a partir de múltiplas imagens de referência? Experimente o Grok Imagine Video Reference-to-Video no WaveSpeedAI — sem cold starts, preços acessíveis por segundo e acesso instantâneo à API.