Wan 2.5: crie vídeos de IA mais longos e estáveis pela metade do custo.

Wan 2.5 é um modelo de imagem e vídeo de ponta da Alibaba.

Experimente o Wan 2.5 agora Ver documentação

Experimente

Text to Video

Image to Video

Text to Image

T to V(Fast)

I to V(Fast)

Prompt

Audio

Clique para enviar um áudio

Criar

Principais recursos

Um único prompt, áudio e vídeo alinhados do início ao fim

Com o Wan 2.5, você não precisa mais gravar narrações separadas ou alinhar lábios manualmente em vídeos silenciosos. Basta fornecer um prompt claro e bem estruturado para gerar um vídeo completo com áudio/narração e sincronia labial de uma só vez. O processo fica mais rápido e simples.

Começar

Prompt

A young man sits still on a subway train, surrounded by blurred figures moving rapidly. [Close-up] His eyes, barely blinking, intensify the sense of loneliness.

Final outcome

Mais acessível

Embora o Google tenha anunciado reduções de preço recentemente, o Veo 3 ainda continua caro. Em contraste, o Wan 2.5 é mais enxuto e econômico, oferecendo mais opções aos criadores enquanto reduz significativamente os custos de produção.

Começar

Wan 2.5

1080p / 10s / $1.5

720p / 10s / $1

480p / 10s / $1

VEO 3

1080p / 8s / $3.2

720p / 8s / $3.2

Movimento suave e estável

Com um amplo alcance dinâmico, o Wan 2.5 torna grandes movimentos tão suaves quanto os pequenos e mantém o movimento estável e realista.

Começar

Wan 2.5

VEO 3

Prompt: A man is surfing.

Multilíngue e receptivo a sotaques

Quando os prompts estão em chinês ou em idiomas minoritários, o Wan 2.5 produz vídeos com áudio sincronizado de forma confiável. Comparado ao Veo 3, ele raramente exibe “idioma desconhecido” quando o prompt inclui chinês ou outros idiomas.

Começar

Wan 2.5

VEO 3

Prompt: A confident woman in her 40s stands on a stage with a microphone. The background shows a large LED screen with abstract visuals. She smiles and begins speaking to the audience in cockney: “Good evening everyone. Can I have a bottle of water” Her lip movements match her voice, and she uses expressive hand gestures while speaking.

Vídeo com referência de voz e som original

O Veo 3 não aceita referências de áudio, limitando os criadores a clipes silenciosos ou sons gerados pelo sistema. Em contraste, o Wan 2.5 permite inserir voz, efeitos sonoros e música de fundo diretamente, conduzindo a geração de vídeo com pistas de áudio precisas.

Começar

Casos de uso

3D Animation: Create a short 3D animated scene in a cheerful cartoon style. A cute creature, with fur like a snow leopard, large expressive eyes, and a round, friendly physique, frolics through a whimsical winter forest. The scene should feature rounded snow-covered trees, gently falling snowflakes, and warm sunlight filtering through the branches. The creature's lively movements and beaming smile should convey pure joy. Adopt a cheerful and heartwarming tone, with bright, playful colors and fun animation.

Customize

2D Animation: A cute magical girl with pink twin-tails is undergoing a brilliant transformation sequence. She is surrounded by shimmering starlight and floating ribbons as her clothes magically dissolve into a detailed battle dress. A close-up shot focuses on her determined, large blue eyes. The background is a fantastical starry sky. Japanese anime style, vibrant colors, magical particle effects, dynamic motion, a mix of Studio Ghibli and Makoto Shinkai art styles.

Customize

ASMR Videos: A keyboard whose keys are made of different types of candy. Typing makes sweet, crunchy sounds. Audio: Crunchy, sugary typing sounds, delighted giggles.

Customize

Movie Opening: A cinematic opening sequence of a sci-fi movie: a spaceship travels across the galaxy, and the movie title "ギャラクティック・オデッセイ" emerges in golden 3D letters, with flawless kerning and no distortion, floating stably in space as the camera rotates.

Customize

Sport shots: A man is surfing.

Customize

Speech: A confident woman in her 40s stands on a stage with a microphone. The background shows a large LED screen with abstract visuals. She smiles and begins speaking to the audience: “Good evening everyone. Tonight, I want to share three powerful lessons about leadership and innovation.” Her lip movements match her voice, and she uses expressive hand gestures while speaking.

Customize

Articles about Wan 2.5

The Next Step in AI Video: Meet Wan 2.5

Over the past few years, AI video generation has gone through several waves of innovation — first with smoother motion, then with higher visual clarity. The arrival of Veo 3 marked a crucial new phase in the industry: native audio-video synchronization. After all, without sound, can a video truly provide a complete “video experience”? This highlights Wan 2.5 — currently the second model globally to support native A/V-synchronized generation (now available on the WaveSpeedAI platform). We’ll analyze its core capabilities, common use cases, and real-world performance to see how this next-generation model upgrades content from simply “watchable” to truly “conversational and comprehensible.”

Read

Q & A

Posso animar um vídeo silencioso existente?

Sim. O modo vídeo para vídeo aplica sincronia labial e expressões a um clipe silencioso enquanto preserva identidade e contexto da cena.

Qual é a duração máxima?

Até 10 minutos por geração.

Como vocês lidam com vários idiomas e dialetos?

Vários idiomas e dialetos são suportados e podem ser misturados em um único clipe. Observação: alternâncias rápidas dentro do mesmo clipe podem reduzir a estabilidade do alinhamento.

Vocês permitem enviar áudio?

Sim. O Wan 2.5 permite enviar uma faixa de voz para conduzir a sincronia labial e o ritmo.