Presentamos ByteDance Seedance 2.0 de Texto a Video en WaveSpeedAI

Presentamos ByteDance Seedance 2.0 Text-to-Video en WaveSpeedAI: Una Nueva Era del Video Cinematográfico con IA

El video generativo ha pasado los últimos dos años tratando de alcanzar la producción profesional. La mayoría de los modelos aún se lanzan sin sonido, pierden a los sujetos a mitad de toma, o colapsan en el momento en que un prompt solicita un movimiento de cámara real. Hoy nos complace anunciar que ByteDance Seedance 2.0 Text-to-Video ya está disponible en WaveSpeedAI — un modelo de video de primera línea que genera clips cinematográficos de calidad Hollywood únicamente a partir de texto, con audio nativo integrado y control a nivel de director sobre la cámara.

Si has estado esperando un modelo de texto a video que puedas incorporar en un pipeline de producción real, este es el que debes probar.

¿Qué es Seedance 2.0 Text-to-Video?

Seedance 2.0 es la última generación de la familia de video Seed de ByteDance, construida sobre una arquitectura multimodal unificada que acepta de forma nativa entradas de texto, imagen, audio y video en un único modelo. El modo Text-to-Video convierte una descripción escrita de una escena en un clip cinematográfico terminado.

Tres aspectos distinguen a Seedance 2.0:

El audio se genera junto con el video en un único paso, con diálogos sincronizados, foley y ambiente — sin necesidad de una pila de audio separada.
La cámara, la iluminación y la actuación son controlables mediante inglés simple — solicita un dolly lento hacia adelante, luz de contorno dramática o una expresión facial específica, y el modelo lo sigue.
El movimiento es estable en tomas largas, con sujetos consistentes, física plausible y transiciones limpias de hasta 15 segundos.

El modelo se expone a través de un único endpoint, bytedance/seedance-2.0/text-to-video, con salidas desde 480p hasta 1080p en seis relaciones de aspecto.

Características Principales

Arquitectura Multimodal Unificada

Seedance 2.0 no es una pila de adaptadores añadidos. El mismo modelo subyacente maneja el condicionamiento de texto, imagen, audio y video, lo que significa que puedes permanecer en un único endpoint a medida que tus prompts se vuelven más sofisticados — añadiendo imágenes de referencia para la consistencia de personajes, videos de referencia para el estilo de movimiento, o audio de referencia para el tono, todo sin cambiar de modelo.

Sincronización Nativa de Audio y Video

La mayoría de los modelos de texto a video te entregan un clip silencioso y dejan el audio como un problema separado. Seedance 2.0 genera audio sincronizado en línea con el video, de modo que el diálogo sincroniza los labios, los pasos caen en los fotogramas correctos y la atmósfera coincide con el estado de ánimo en pantalla. El resultado es un clip que se siente terminado en el momento en que llega, no un borrador esperando posproducción.

Control a Nivel de Director

Seedance 2.0 lee los prompts de la misma manera que un director lee una lista de tomas. Los movimientos de cámara (push in, grúa hacia arriba, whip pan), configuraciones de iluminación (hora dorada, luz de contorno, clave baja), dirección de sombras, sensación de lente e incluso la actuación de los personajes pueden especificarse en lenguaje natural y el modelo los respeta. Esta es la diferencia entre “video de IA” y una toma utilizable.

Calidad Cinematográfica de Nivel Profesional

Visualmente, el modelo apunta al aspecto del cine profesional en lugar de material de archivo genérico: iluminación dramática, gradación de color considerada, movimiento natural fluido y fuerte coherencia del sujeto. Se mantiene bien en una línea de tiempo de 1080p, no solo como miniatura.

Estabilidad de Movimiento Excepcional

Las tomas largas son donde la mayoría de los modelos de video se desmoronan. Seedance 2.0 mantiene sujetos estables, física consistente y transiciones fluidas a lo largo de todo el rango de duración, lo que te permite usar realmente salidas de 10 y 15 segundos como tomas terminadas en lugar de material en bruto para recortar.

Fuerte Adherencia a las Instrucciones

Las descripciones detalladas de escenas, composiciones de tomas y dirección creativa se siguen de cerca. Puedes añadir capas de detalles — vestuario, utilería, bloqueo, estado de ánimo — y esperar que aparezcan en la salida en lugar de ser promediados.

Casos de Uso

Previsualización de cine y televisión — Organiza tomas y secuencias antes de comprometer equipo y presupuesto. Genera animáticas que ya incluyen diseño de sonido.
Comerciales y anuncios de marca — Produce spots premium de 5 a 15 segundos con iluminación cinematográfica y voz en off sincronizada o camas musicales.
Videos musicales — Crea cortes estilizados de interpretación y narrativa con sincronización de audio nativa, luego incorpora una pista final.
Contenido premium para redes sociales — Destaca en un feed 9:16 con clips cortos de calidad cinematográfica que parecen creados por un autor, no generados.
Educación y explicaciones — Visualiza conceptos abstractos, escenas históricas o fenómenos científicos con movimiento claro y señales de narración integradas.
Conceptos y presentaciones — Vende conceptos de cine, televisión y videojuegos a productores y editores con vistas previas en movimiento de calidad de producción en lugar de tableros estáticos.
Cinemáticas y trailers de videojuegos — Prototipa los momentos clave del trailer y las escenas cinemáticas importantes al inicio del desarrollo.

Parámetros

Parámetro	Requerido	Descripción
`prompt`	Sí	Descripción detallada de la escena cinematográfica
`aspect_ratio`	No	Formato de salida: 16:9 (predeterminado), 9:16, 4:3, 3:4, 1:1, 21:9
`duration`	No	Duración del video en segundos: 4–15 (predeterminado: 5)
`resolution`	No	Resolución de salida: 480p, 720p (predeterminado), o 1080p
`reference_images`	No	URLs de imágenes de referencia para guiar estilo, personajes o composición
`reference_videos`	No	URLs de videos de referencia (la duración total no debe exceder 15 segundos)
`reference_audios`	No	URLs de audios de referencia (la duración total no debe exceder 15 segundos)

Precios

Resolución	Duración	Sin Videos de Referencia	Con Videos de Referencia
480p	5 s	$0.60	$1.20
480p	10 s	$1.20	$2.40
480p	15 s	$1.80	$3.60
720p	5 s	$1.20	$2.40
720p	10 s	$2.40	$4.80
720p	15 s	$3.60	$7.20
1080p	5 s	$3.00	$6.00
1080p	10 s	$6.00	$12.00
1080p	15 s	$9.00	$18.00

El precio escala linealmente con la duración en todo el rango de 4 a 15 segundos. La tarifa base es $0.60 por 5 segundos a 480p; 720p es 2x la base, 1080p es 5x la base, y añadir videos de referencia duplica el precio.

Ejemplo de Código

Llama al modelo con el SDK de Python de WaveSpeed:

import wavespeed

output = wavespeed.run(
    "bytedance/seedance-2.0/text-to-video",
    {
        "prompt": "A lone astronaut walks across a windswept red desert at golden hour, dramatic rim light, slow dolly in, cinematic 35mm look, distant mountains, swirling dust",
        "aspect_ratio": "16:9",
        "duration": "10",
        "resolution": "1080p",
    },
)

print(output["outputs"][0])

Puedes añadir reference_images, reference_videos o reference_audios para fijar el estilo, el movimiento o el tono de audio cuando necesitas una guía más sólida.

Consejos Profesionales

Escribe como un director. Especifica la iluminación (p. ej., “luz suave de ventana, sombras largas”), la sensación de lente, el movimiento de cámara y la acción del sujeto. Los prompts vagos producen tomas vagas.
Elige primero la relación de aspecto. 16:9 para pantalla ancha cinematográfica, 9:16 para vertical premium, 21:9 para encuadres estilo anamórfico.
Itera a 480p o 720p. Fija la composición y el movimiento a una resolución económica, luego vuelve a renderizar el ganador a 1080p.
Comienza corto, luego extiende. Empieza con 4–5 segundos para afinar el aspecto y el tono, luego extiende a 10–15 segundos una vez que el prompt esté bien.
Aprovecha las señales de audio. Menciona la intención del diálogo, el estado de ánimo de la música o el sonido ambiente — el audio nativo responde a estos como parte del prompt.

Preguntas Frecuentes

¿Seedance 2.0 Text-to-Video realmente genera audio? Sí. La sincronización nativa de audio y video está integrada, por lo que los videos vuelven con sonido sincronizado generado en el mismo paso. No necesitas ejecutar un modelo separado de texto a audio o de voz.

¿Cuál es la duración máxima del clip? La duración es continua de 4 a 15 segundos. Puedes solicitar cualquier duración entera en ese rango; el precio escala linealmente con la duración.

¿Qué resoluciones y relaciones de aspecto son compatibles? Las resoluciones de salida son 480p, 720p (predeterminado) y 1080p. Las relaciones de aspecto son 16:9 (predeterminado), 9:16, 4:3, 3:4, 1:1 y 21:9.

¿Cuándo debo usar entradas de referencia? Las imágenes de referencia ayudan a anclar personajes, estilo o composición. Los videos de referencia guían el movimiento o el estilo de toma (nota: esto duplica el precio). Los audios de referencia dan forma al tono, la música o la voz. La duración total combinada del video y audio de referencia no debe exceder los 15 segundos.

¿Cómo se compara Seedance 2.0 Text-to-Video con las variantes Image-to-Video y Fast? Text-to-Video comienza únicamente desde un prompt y es la opción correcta cuando no tienes un fotograma fuente. Image-to-Video anima una imagen existente. Fast Text-to-Video sacrifica algo de calidad por generaciones más baratas y rápidas — ideal para iteración y casos de uso de alto volumen.

Modelos Relacionados

Seedance 2.0 Image-to-Video — Anima una imagen fija con la misma arquitectura de Seedance 2.0.
Seedance 2.0 Fast Text-to-Video — Text-to-video más rápido y económico para iteración y escala.
Seedance 2.0 Fast Image-to-Video — Generación de video rápida condicionada por imagen.
Seedance V1.5 Pro Text-to-Video — Modelo Seedance de la generación anterior.

Comenzar

Seedance 2.0 Text-to-Video se ejecuta en la pila de inferencia optimizada de WaveSpeedAI sin arranques en frío, precios predecibles y una única API REST. Ya sea que estés previsualizando un largometraje, editando un spot de marca, o construyendo el próximo producto de video nativo con IA, este modelo te ofrece salida cinematográfica y audio nativo en una sola llamada.

Prueba Seedance 2.0 Text-to-Video en WaveSpeedAI y empieza a filmar con prompts.

Prueba Seedance 2.0 Mini — la versión más rápida y económica, al 50 % del precio estándar: Seedance 2.0 Mini API. ¿Nuevo en la familia? Seedance 2.0 API.