¿Qué es NVIDIA Cosmos3-Nano? El modelo de mundo omni de 16B para IA física

NVIDIA acaba de lanzar Cosmos3-Nano en Hugging Face, y no es un checkpoint de texto a video normal. Es un modelo de mundo omnimodal de 16B parámetros diseñado para Physical AI: robótica, vehículos autónomos, espacios inteligentes, entornos industriales, simulación y razonamiento de acciones.

La versión corta: Cosmos3-Nano puede tomar combinaciones de texto, imagen, video, audio y trayectorias de acción como entrada, y luego producir salidas de texto, imagen, video, audio o acción. Eso lo acerca más a un modelo operativo del mundo físico que a un generador de imágenes o video de propósito único.

Puedes leer la tarjeta del modelo aquí: nvidia/Cosmos3-Nano en Hugging Face. NVIDIA también publicó el anuncio más amplio de Cosmos 3 en su sala de prensa y un resumen práctico para desarrolladores en el Blog Técnico de NVIDIA.

Qué es Cosmos3-Nano

Cosmos3-Nano es el lanzamiento más pequeño de la familia Cosmos 3 de NVIDIA. “Nano” no significa diminuto en el sentido habitual de los modelos abiertos. La tarjeta del modelo lo describe con 16B parámetros entrenables, con pesos BF16 y soporte a través del framework Cosmos de NVIDIA, vLLM-Omni, vLLM, PyTorch y Hugging Face Diffusers.

El modelo se lanza bajo la licencia OpenMDW 1.1 y la tarjeta indica que está listo para uso comercial y no comercial. NVIDIA lista la fecha de lanzamiento como el 31 de mayo de 2026 en Hugging Face y GitHub.

La parte importante es el tipo de modelo. Cosmos3-Nano es un modelo de mundo omni:

Puede razonar sobre escenas físicas.
Puede generar salidas de video e imagen.
Puede generar audio ambiente mezclado en video.
Puede generar o condicionar trayectorias de acción.
Puede soportar predicción de estados futuros y flujos de trabajo de políticas encarnadas.

Eso lo coloca en una categoría diferente a modelos como Veo, Runway, Seedance o Kling. Esos son principalmente modelos de video creativos. Cosmos3-Nano está orientado a desarrolladores que necesitan un modelo para comprender, simular y actuar en entornos físicos.

Por qué importa

La mayoría de los modelos generativos de video responden una pregunta creativa:

¿Cómo debería verse esta escena?

Cosmos3-Nano intenta responder una pregunta de Physical AI:

¿Qué está pasando en esta escena, qué podría pasar después y qué acción debería seguir?

Esa distinción importa para la robótica y los sistemas autónomos. Un robot de almacén, un vehículo de reparto, una cámara de fábrica o un agente encarnado no solo necesita video bonito. Necesita un modelo interno útil del mundo.

Por ejemplo:

Un brazo robótico necesita entender cómo se mueven los objetos cuando se agarran.
Un vehículo autónomo necesita predicción de estados futuros bajo condiciones de carretera cambiantes.
Un sistema de espacio inteligente necesita razonar sobre la actividad en imágenes de cámaras fijas.
Un pipeline de simulación necesita datos sintéticos que preserven la plausibilidad física.
Un modelo de política robótica necesita trayectorias de acción, no solo fotogramas visuales.

Cosmos3-Nano es el intento de NVIDIA de reunir esas capacidades bajo una familia de modelos abiertos.

La arquitectura: Mixture-of-Transformers

NVIDIA describe Cosmos 3 como una arquitectura Mixture-of-Transformers. El modelo combina dos sistemas transformer complementarios:

Componente	Rol
Transformer autorregresivo	Genera tokens discretos como texto
Transformer de difusión	Genera modalidades continuas como imágenes, video, audio y acciones

Este es un diseño pragmático. La generación de texto y la generación de video no requieren el mismo proceso de decodificación. El texto funciona bien con la decodificación autorregresiva de siguiente token. Las imágenes, el video y el audio a menudo funcionan mejor como problemas de denoising.

La arquitectura mantiene ambos mecanismos en un framework de modelo unificado, por lo que Cosmos3 puede razonar y generar a través de modalidades heterogéneas sin pretender que cada salida deba decodificarse de la misma manera.

Esa es la razón técnica por la que Cosmos3-Nano se siente diferente de una pila de “modelo de video más subtitulador”. El objetivo no es conectar un modelo de visión-lenguaje a un generador. El objetivo es un modelo unificado de Physical AI que pueda razonar, generar y actuar.

Capacidades de entrada y salida

Según la tarjeta del modelo, Cosmos3-Nano soporta una amplia superficie de entrada y salida.

Entradas del generador:

texto
imagen
video con o sin audio
trayectoria de acción

Salidas del generador:

imagen
video
audio
acción
texto

La tarjeta del modelo lista formatos comunes de imagen y video como JPG, PNG, WEBP y MP4. Las entradas de video pueden ser de 256p, 480p o 720p, y el video de entrada está limitado a 5 fotogramas para la ruta del generador. Las entradas de audio son cortas, con una longitud máxima de 0,5 segundos. Las entradas de acción cubren múltiples encarnaciones, incluyendo movimiento de cámara, vehículos autónomos, movimiento egocéntrico, brazos Franka, Agibot, UR, robot de Google, WidowX 250 y UMI.

Para las salidas, el video generado es MP4. El audio generado se codifica como AAC y se mezcla en el archivo de video. La generación de video puede ejecutarse de 5 a 400 fotogramas, con 189 fotogramas listados como la duración de generación predeterminada.

Esa combinación es inusual. La mayoría de los modelos de video públicos exponen texto a video e imagen a video. Cosmos3-Nano expone un conjunto más orientado a Physical AI de controles, incluida la generación condicionada por acción y la predicción de acción.

Qué pueden construir los desarrolladores con él

Cosmos3-Nano es más interesante cuando el producto no es un editor de video para consumidores.

Generación de datos sintéticos

Los sistemas de Physical AI necesitan datos que cubran casos extremos. La recolección en el mundo real es costosa, lenta y a veces peligrosa. Cosmos3-Nano puede ayudar a generar escenas, estados futuros e interacciones físicas que aumenten los conjuntos de datos reales.

Esto no significa que los datos sintéticos reemplacen los datos reales. Significa que los equipos pueden ampliar la cobertura en torno a condiciones climáticas inusuales, diseños de objetos poco comunes, situaciones de tráfico de larga cola, interacciones en almacenes o estados de manipulación robótica.

Predicción de estados futuros

Un modelo de mundo debería ayudar a estimar qué sucede a continuación. Si una cámara ve un vehículo en movimiento, una caja deslizándose en una cinta transportadora o un brazo robótico aproximándose a un objeto, el modelo puede usarse como parte de un flujo de trabajo de predicción.

NVIDIA es cuidadoso con la seguridad aquí. Las salidas de Cosmos3 no deben tratarse como verdad física certificada. Para los sistemas autónomos, las predicciones generadas necesitan restricciones externas, validación y salvaguardas a nivel de sistema.

Razonamiento de acciones robóticas

El soporte de trayectoria de acción es el diferenciador más importante. Cosmos3-Nano puede condicionar sobre secuencias de acción y generar despliegues físicos, o inferir salidas similares a acciones a partir del contexto visual.

Eso lo hace relevante para:

desarrollo de políticas robóticas
planificación de manipulación
experimentos de dinámica inversa
aumento de datos para agentes encarnados
investigación de sim-to-real

De nuevo, esto es un bloque de construcción de investigación y desarrollo, no un controlador de seguridad plug-and-play.

Generación de video y audio para escenas físicas

Cosmos3-Nano también puede generar video con sonido ambiente. La tarjeta del modelo incluye ejemplos para texto a video, imagen a video, texto a video más audio, e imagen a video más audio a través de un endpoint vLLM-Omni local.

Para los creadores de contenido, eso puede sonar como un competidor de modelos de video como Kling o Seedance. Pero el caso de uso más sólido es la generación de escenas físicas: carreteras, almacenes, robots, espacios interiores, cámaras, movimiento de objetos y entornos donde la consistencia física importa más que la salida cinematográfica estilizada.

Cómo ejecutar Cosmos3-Nano

La tarjeta de Hugging Face muestra tres rutas principales:

Framework NVIDIA Cosmos
Servicio vLLM-Omni
Hugging Face Diffusers

Para el despliegue, NVIDIA recomienda vLLM-Omni para un endpoint de API compatible con OpenAI. Un comando de servicio típico se ve así:

vllm serve nvidia/Cosmos3-Nano \
  --omni \
  --host 0.0.0.0 \
  --port 8000

Para experimentación simple con Diffusers, la tarjeta de Hugging Face también expone el patrón de pipeline familiar:

import torch
from diffusers import DiffusionPipeline

pipe = DiffusionPipeline.from_pretrained(
    "nvidia/Cosmos3-Nano",
    dtype=torch.bfloat16,
    device_map="cuda",
)

image = pipe("A warehouse robot inspecting stacked crates").images[0]

Para flujos de trabajo serios de video o acción, usa los ejemplos del framework Cosmos en lugar de tratar esto como un modelo genérico de texto a imagen. Los ejemplos avanzados dependen de prompts con muestreo ascendente JSON, prompts negativos, solicitudes multiparte y parámetros específicos del modelo como conteo de fotogramas, FPS, pasos de inferencia, escala de guía y metadatos de acción.

Notas de hardware y despliegue

Este no es un modelo de juguete para portátiles. La tarjeta del modelo lista GB200 y H100 como hardware de prueba, con las familias de microarquitectura de hardware NVIDIA Ampere, Hopper y Blackwell como soportadas. Solo la precisión BF16 está oficialmente probada.

La tarjeta también dice que el modelo no está desplegado por un Proveedor de Inferencia de Hugging Face en el momento de escribir esto. En la práctica, eso significa que la mayoría de los desarrolladores lo evaluarán a través de infraestructura GPU local de NVIDIA, inferencia hospedada personalizada, despliegue al estilo NIM, o un proveedor de API especializado una vez que el soporte llegue.

Para los equipos que construyen sistemas de producción, la pregunta de despliegue no es solo “¿puedo ejecutarlo?” Es:

¿Puedo mantener la latencia lo suficientemente baja para la tarea?
¿Puedo permitirme suficiente memoria GPU para la resolución objetivo y el conteo de fotogramas?
¿Puedo validar las salidas contra restricciones específicas del dominio?
¿Puedo registrar prompts, entradas, semillas, salidas generadas y metadatos de acción para revisión?
¿Puedo fallar de forma segura cuando el estado del mundo generado es incierto?

Cosmos3-Nano es abierto, pero el despliegue de Physical AI todavía necesita infraestructura seria.

Cómo se compara Cosmos3-Nano con los modelos de video creativos

Cosmos3-Nano no debería evaluarse únicamente por los mismos criterios que los generadores de video para consumidores.

Tipo de modelo	Objetivo principal	Mejor opción
Modelo de video creativo	Generar clips atractivos	anuncios, video social, b-roll cinematográfico
Editor de video multimodal	Revisar medios con entradas mixtas	flujos de trabajo de creadores, contenido de productos
Modelo de mundo	Razonar y simular escenas físicas	robótica, AV, espacios inteligentes, datos sintéticos
Modelo de acción	Predecir o generar trayectorias de control	aprendizaje de políticas encarnadas

Seedance, Kling, Runway y Veo siguen siendo mejores referencias para la calidad de video orientada al creador. Cosmos3-Nano es más relevante cuando la escena generada debe conectarse al razonamiento físico o la acción.

Por eso importa este lanzamiento. El mercado se está dividiendo. El video de IA es una rama. Los modelos de mundo de Physical AI son otra.

Limitaciones y seguridad

La tarjeta del modelo de NVIDIA es explícita en que las salidas de Cosmos3 no deben tratarse como simulación físicamente precisa, razonamiento de verdad fundamental o toma de decisiones con certificación de seguridad.

Esa es la advertencia correcta. Un estado futuro generado puede ser útil como hipótesis, pero no es una medición verificada. Una acción generada puede ser útil para la investigación, pero no es automáticamente un control seguro. Una escena sintética puede ayudar a expandir un conjunto de datos, pero aún puede codificar sesgos, casos faltantes o detalles físicamente implausibles.

Los equipos de producción deberían combinar Cosmos3-Nano con:

validación de dominio
simuladores convencionales donde importa la física exacta
filtros de seguridad y salvaguardas
revisión humana para salidas de alto riesgo
datos de evaluación del mundo real
alternativas cuando las predicciones son inciertas

El modelo es poderoso porque unifica modalidades. Eso también significa que los errores pueden propagarse a través de las modalidades. Si el paso de razonamiento malinterpreta una escena, el video, audio o acción generados pueden heredar ese error.

Por qué esto importa para las plataformas de IA

Cosmos3-Nano apunta a un cambio más amplio: las APIs de modelos están evolucionando más allá de los endpoints de texto, imagen y video hacia APIs de estado del mundo.

Las futuras plataformas de IA no solo expondrán:

generate_image(prompt)
generate_video(prompt)

Expondrán tareas de Physical AI de nivel superior:

predict_next_state(scene, action)
generate_synthetic_rollout(environment, policy)
infer_action(video)
simulate_edge_case(route, weather, actors)

Para los desarrolladores, eso significa que el enrutamiento de modelos se vuelve más importante. Una solicitud para un anuncio de TikTok debería ir a un modelo de video creativo rápido. Una solicitud de datos sintéticos para robots de almacén debería ir a un modelo de mundo de Physical AI. Una solicitud para un despliegue de acción controlado debería usar un modelo con conciencia de acción, no un endpoint genérico de imagen a video.

Cosmos3-Nano es uno de los ejemplos públicos más claros de esa próxima categoría.

Conclusión final

NVIDIA Cosmos3-Nano es un modelo de mundo omnimodal abierto de 16B para Physical AI. Su valor no es solo que puede generar video, imágenes, audio, texto y acciones. Su valor es que esas capacidades viven dentro de una familia de modelos construida para razonar sobre entornos físicos.

Si estás construyendo herramientas para creadores, Cosmos3-Nano puede ser menos inmediatamente útil que Seedance, Kling, Runway o Veo. Si estás construyendo flujos de trabajo de robótica, conjuntos de datos de sistemas autónomos, percepción de espacios inteligentes o datos de entrenamiento del mundo físico sintético, es uno de los lanzamientos más importantes para probar este mes.

La gran idea es simple: la generación de IA está pasando de la creación de medios hacia la simulación del mundo físico. Cosmos3-Nano es el punto de entrada abierto de NVIDIA a ese cambio.

Qué es Cosmos3-Nano

Por qué importa

La arquitectura: Mixture-of-Transformers

Capacidades de entrada y salida

Qué pueden construir los desarrolladores con él

Generación de datos sintéticos

Predicción de estados futuros

Razonamiento de acciones robóticas

Generación de video y audio para escenas físicas

Cómo ejecutar Cosmos3-Nano

Notas de hardware y despliegue

Cómo se compara Cosmos3-Nano con los modelos de video creativos

Limitaciones y seguridad

Por qué esto importa para las plataformas de IA

Conclusión final

Fuentes

Artículos relacionados

Grok Imagine Video 1.5: El modelo de imagen a video de xAI con audio nativo

API Vidu Q3: Elimina los Cuellos de Botella Principales del Video IA Empresarial para Desarrolladores Globales y Equipos B2B

Gemini Omni Flash vs Seedance 2.0 vs Kling 3.0: El Mejor Modelo de Video IA para Creación Multimodal

Kling 3.0 Omni Explicado: Storyboarding Multi-Toma, Audio Nativo y Dónde Supera a Veo

La Estrategia de Marketplace de Modelos de Runway: Lo Que Significa para las APIs de Video IA

Análisis técnico de Seedance 2.0: Por qué la generación de audio y vídeo se está convirtiendo en el estándar