Proyecto Glasswing: Por qué Anthropic limita Mythos

Llevo un tiempo siguiendo los lanzamientos de modelos de Anthropic, y el anuncio del 7 de abril fue el primero que me hizo detenerme y releerlo dos veces.

No porque Claude Mythos Preview sea “poderoso” — esa palabra se ha aplicado a cada lanzamiento de modelo durante dos años. Sino porque Anthropic hizo algo inusual: desarrollaron una capacidad, concluyeron que era demasiado arriesgada para lanzarla, y en cambio estructuraron un programa restringido diseñado específicamente para usar esa capacidad en defensa antes de que los atacantes se den cuenta de que van por detrás. Eso es un movimiento diferente. El Proyecto Glasswing vale la pena entenderlo claramente — no como una historia de relaciones públicas, sino como una ventana a cómo se está desarrollando realmente la gobernanza de la IA de frontera.

Soy tu amiga, Dora. Aquí está lo que está confirmado, lo que significa y lo que los desarrolladores deberían extraer de esto.

Qué es el Proyecto Glasswing

El programa de acceso gestionado de Anthropic para Claude Mythos Preview

Project Glasswing es la iniciativa de Anthropic para desplegar Claude Mythos Preview — su modelo más capaz hasta la fecha — específicamente para trabajo defensivo en ciberseguridad. El modelo no está disponible públicamente. El acceso está restringido a un grupo selecto de organizaciones que trabajan en infraestructura de software crítica.

Los socios de lanzamiento nombrados por Anthropic incluyen AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks. Más allá de esos socios nombrados, Anthropic ha extendido el acceso a más de 40 organizaciones adicionales que construyen o mantienen infraestructura de software crítica.

Propósito: dar a los defensores una ventaja

El encuadre que usa Anthropic es explícito: las mismas capacidades que hacen peligrosos a los modelos de IA en manos equivocadas los hacen invaluables para encontrar y corregir fallos en software importante — y para producir nuevo software con muchos menos errores de seguridad.

Esa es la tesis completa. Un modelo que puede encontrar vulnerabilidades de día cero de forma autónoma es simultáneamente la herramienta de seguridad más útil jamás construida y una de las capacidades ofensivas más peligrosas jamás creadas. El Proyecto Glasswing es el intento de dejar que el lado defensor avance primero.

Lo que ya se ha encontrado

Esto no es especulativo. Durante las últimas semanas, Anthropic usó Claude Mythos Preview para identificar miles de vulnerabilidades de día cero — fallos previamente desconocidos para los desarrolladores del software — muchos de ellos críticos, en todos los principales sistemas operativos y en todos los principales navegadores web, junto con una variedad de otras piezas importantes de software.

Un ejemplo específico del blog del Equipo Rojo de Frontera de Anthropic: Mythos Preview identificó y explotó de forma completamente autónoma una vulnerabilidad de ejecución remota de código de 17 años en FreeBSD (CVE-2026-4747) que permite a cualquiera obtener acceso root en una máquina que ejecuta NFS — comenzando desde una posición no autenticada en cualquier lugar de internet. No hubo intervención humana después del prompt inicial.

El compromiso de 90 días

Este es el detalle que la mayoría de la cobertura ha subestimado. Anthropic se ha comprometido explícitamente: dentro de 90 días, informará públicamente sobre lo que han aprendido, así como sobre las vulnerabilidades corregidas y las mejoras realizadas que puedan divulgarse. Ese es un compromiso público con límite de tiempo — no un vago “compartiremos los aprendizajes eventualmente.” Significa que para principios de julio de 2026, debería haber una rendición de cuentas real de lo que este programa encontró y corrigió.

Por qué Anthropic eligió este enfoque

El problema de doble uso, expresado claramente

Esta es la lógica central, y vale la pena reflexionar sobre ella. Un modelo que puede encontrar y explotar vulnerabilidades de software de forma autónoma no es solo una poderosa herramienta de seguridad — es una poderosa herramienta de ataque. La capacidad no viene con un detector de intenciones. Lanzar ampliamente Mythos Preview significa lanzar ampliamente la capacidad de comprometer infraestructura crítica.

Ese es el problema del doble uso. No es que Anthropic no confíe en los desarrolladores. Es que un modelo ampliamente disponible capaz de encadenar días cero y escribir exploits funcionales crea un perfil de riesgo que ningún actor responsable puede ignorar — independientemente de quién pregunte. La tarjeta del sistema para Mythos Preview lo afirma directamente: “El gran aumento en las capacidades de Claude Mythos Preview nos ha llevado a decidir no ponerlo a disposición general."

"Sorprendentemente capaz” — y lo que eso realmente significa

El lenguaje de Anthropic aquí es deliberado. No llamaron a Mythos Preview “marginalmente mejor en tareas de seguridad.” La palabra que usaron es “sorprendentemente capaz.” El modelo puede realizar por sí solo tareas de hacking complejas y efectivas — identificar múltiples vulnerabilidades no divulgadas, escribir código para explotarlas y encadenarlas para penetrar software complejo.

Mythos Preview también ha saturado efectivamente los benchmarks internos y externos existentes que Anthropic usaba para rastrear las capacidades del modelo, lo que obligó a un cambio hacia pruebas con tareas novedosas del mundo real. Cuando tu modelo supera tu suite de evaluación, estás en territorio genuinamente nuevo.

Lo que esta restricción explícitamente no es

Vale la pena ser preciso aquí porque el encuadre importa. Esto no es Anthropic acaparando capacidades. No es una jugada competitiva. La restricción existe porque la asimetría del daño derivado de un lanzamiento amplio se inclina marcadamente hacia lo negativo a corto plazo: los defensores necesitan coordinación y tiempo para parchear; los atacantes solo necesitan el modelo.

Al lanzar este modelo inicialmente a un grupo limitado de socios industriales críticos, Anthropic pretende permitir que los defensores comiencen a asegurar los sistemas más importantes antes de que modelos con capacidades similares estén ampliamente disponibles.

La lógica es de secuenciación, no de secretismo.

Qué están haciendo los participantes de Glasswing

Alcance del trabajo

Los socios están usando Claude Mythos Preview específicamente para seguridad defensiva — encontrando y corrigiendo vulnerabilidades en sistemas que poseen o mantienen. El alcance se extiende a bases de código propias y sistemas de código abierto. La inclusión de la Linux Foundation es notable precisamente porque gran parte de la infraestructura crítica se ejecuta en software de código abierto que históricamente ha tenido menos recursos para la seguridad.

Lo que dicen los socios

La declaración de Cisco en la página oficial de Glasswing: el trabajo ha demostrado que pueden identificar y corregir vulnerabilidades de seguridad en hardware y software a un ritmo y escala antes imposibles. Microsoft señaló que el modelo ya está ayudando a fortalecer el código en bases de código críticas. AWS describió su aplicación en una pila tecnológica que gestiona más de 400 billones de flujos de red diarios.

Estos no son testimonios de demostración. Son equipos de seguridad en producción describiendo uso real.

El compromiso de recursos

Anthropic ha comprometido $100M en créditos de uso del modelo para los participantes del Proyecto Glasswing durante toda la vista previa de investigación, junto con $4M en donaciones directas a organizaciones de seguridad de código abierto. El acceso tiene un precio de $25/$125 por millón de tokens de entrada/salida a través de la API de Claude, Amazon Bedrock, Vertex AI de Google Cloud y Microsoft Foundry.

Lo que esto nos dice sobre la estrategia de lanzamiento de Anthropic

Los lanzamientos con control de seguridad son ahora reales

Antes de Glasswing, “seremos cautelosos al lanzar esto” era principalmente un lenguaje teórico. Ahora es operativo. Anthropic desarrolló una capacidad, la evaluó, decidió que el perfil de riesgo impedía la disponibilidad general, y estructuró una alternativa que aún crea valor mientras gestiona el lado negativo. Eso es una plantilla.

La implicación práctica: no todas las capacidades de frontera seguirán un lanzamiento de API pública. Algunas capacidades — particularmente aquellas con obvio potencial de doble uso — pueden estar detrás de programas gestionados, con acceso condicionado al tipo de organización, caso de uso o postura de seguridad.

Cómo esto difiere de una beta estándar

Una beta de API normal trata sobre la preparación: el modelo no es del todo estable, la documentación está incompleta, se necesita retroalimentación antes del lanzamiento general. Glasswing es categóricamente diferente. El modelo está listo. El problema es lo que sucede si se despliega ampliamente antes de que los defensores hayan tenido tiempo de usarlo. La restricción trata sobre la secuenciación del impacto, no sobre la madurez técnica.

Esta distinción importa para cómo piensas sobre lo que significa el “acceso” a modelos de frontera en el futuro.

Lo que viene después de Glasswing

Anthropic ha declarado que no planea hacer que Mythos Preview esté disponible en general. Su objetivo declarado es eventualmente permitir el despliegue seguro de modelos de clase Mythos a escala — pero eso requiere desarrollar salvaguardas de ciberseguridad que puedan detectar y bloquear las salidas más peligrosas del modelo. Planean lanzar nuevas salvaguardas con un próximo modelo Claude Opus, usándolo para mejorar y refinar esas salvaguardas con un modelo que no tiene el mismo perfil de riesgo.

Traducción: hay una hoja de ruta de desarrollo de seguridad que debe preceder al acceso más amplio. El informe público de 90 días será el primer punto de datos real sobre si esa hoja de ruta está progresando.

Implicaciones para desarrolladores y el ecosistema

Lo que los modelos de frontera con acceso restringido significan para ti

Si estás construyendo sobre IA — ya sea como líder de infraestructura, propietario de producto o fundador técnico — Glasswing es la primera señal concreta de que el modelo de acceso para capacidades de frontera se está bifurcando. Las APIs públicas seguirán cubriendo la mayoría de los casos de uso. Pero para capacidades en la frontera del riesgo de doble uso, los programas de acceso gestionado con verificación organizacional pueden convertirse en estándar.

Eso no es necesariamente malo para los desarrolladores. La alternativa — sin acceso — es peor. Pero sí significa que el camino hacia las capacidades de frontera para dominios sensibles requerirá cada vez más demostrar idoneidad organizacional, no solo preparación técnica.

Lo que Glasswing señala sobre futuros modelos de alta capacidad

El patrón que Anthropic ha establecido con Glasswing casi con certeza se aplicará de nuevo. Cuando un modelo futuro demuestre capacidades que creen un riesgo de doble uso significativo — ya sea en biología, química, cibernética u otros dominios — espera la misma secuenciación: acceso restringido a defensores e investigadores, un calendario de transparencia definido e informes públicos antes de cualquier lanzamiento más amplio.

Anthropic ha señalado que este trabajo puede tomar años, y que las capacidades de IA de frontera probablemente avancen sustancialmente durante ese tiempo. Esto no es un caso extremo puntual. Es el comienzo de un patrón de gobernanza.

Preguntas frecuentes

¿Quién califica para el acceso al Proyecto Glasswing?

El alcance actual cubre dos grupos: socios de lanzamiento nombrados (grandes empresas tecnológicas y de seguridad listadas públicamente por Anthropic) y más de 40 organizaciones adicionales que construyen o mantienen infraestructura de software crítica. No hay un proceso de solicitud pública descrito en la página oficial de Glasswing hasta el momento de escribir esto.

¿Puedo solicitar Glasswing como investigador independiente?

El encuadre actual es organizacional, no individual. Los investigadores independientes no están excluidos en principio — los mantenedores de código abierto se mencionan explícitamente — pero la vía de acceso es a través de organizaciones que mantienen software crítico, no investigadores individuales. Si esto cambia, probablemente se anunciaría a través de la página oficial de Glasswing.

¿Eventualmente estará Claude Mythos disponible públicamente?

Anthropic ha declarado que no planea hacer que Mythos Preview esté disponible en general. Un modelo futuro con capacidades de clase Mythos puede estar disponible una vez que se desarrollen y validen las salvaguardas de seguridad necesarias — pero no hay un calendario público para eso.

¿Qué hace a Mythos lo suficientemente diferente como para requerir un lanzamiento restringido?

Dos cosas: capacidad autónoma y alcance. Los modelos anteriores podían ayudar con tareas de seguridad. Mythos Preview puede encadenar vulnerabilidades, escribir exploits funcionales e identificar errores previamente desconocidos en todos los principales sistemas operativos y navegadores — sin intervención humana después del prompt inicial. Ese es un perfil de riesgo cualitativamente diferente.

¿Ha hecho Anthropic antes este tipo de lanzamiento restringido?

No a esta escala ni con este encuadre explícito de seguridad. Los lanzamientos restringidos anteriores eran betas estándar o programas empresariales. Glasswing es el primer caso en que Anthropic ha dicho públicamente: esta capacidad es demasiado peligrosa para lanzarla ampliamente, y aquí está la alternativa estructurada. Eso es nuevo.

Más por venir — el informe público de 90 días es el próximo punto de datos real. Vale la pena seguirlo.

Posts anteriores: