Projeto Glasswing: Por que a Anthropic Limita o Mythos

Acompanho os lançamentos de modelos da Anthropic há algum tempo, e o anúncio de 7 de abril foi o primeiro que me fez genuinamente parar e relê-lo duas vezes.

Não porque o Claude Mythos Preview seja “poderoso” — essa palavra foi aplicada a cada lançamento de modelo durante dois anos. Mas porque a Anthropic fez algo incomum: desenvolveu uma capacidade, concluiu que era arriscada demais para ser lançada e, em vez disso, estruturou um programa restrito especificamente projetado para usar essa capacidade na defesa antes que os atacantes percebam que estão em desvantagem. Esse é um tipo diferente de movimento. O Project Glasswing merece ser compreendido claramente — não como uma história de relações públicas, mas como uma janela para como a governança de IA de fronteira está se desenvolvendo na prática.

Sou sua amiga, Dora. Aqui está o que está confirmado, o que significa e o que os desenvolvedores devem aprender com isso.

O que é o Project Glasswing

O programa de acesso gerenciado da Anthropic para o Claude Mythos Preview

O Project Glasswing é a iniciativa da Anthropic para implantar o Claude Mythos Preview — seu modelo mais capaz até hoje — especificamente para trabalho defensivo de cibersegurança. O modelo não está disponível publicamente. O acesso é restrito a um grupo selecionado de organizações que trabalham com infraestrutura de software crítica.

Os parceiros de lançamento nomeados pela Anthropic incluem AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, a Linux Foundation, Microsoft, NVIDIA e Palo Alto Networks. Além desses parceiros nomeados, a Anthropic estendeu o acesso a mais de 40 organizações adicionais que desenvolvem ou mantêm infraestrutura de software crítica.

Propósito: dar uma vantagem aos defensores

O enquadramento que a Anthropic usa é explícito: as mesmas capacidades que tornam os modelos de IA perigosos nas mãos erradas os tornam inestimáveis para encontrar e corrigir falhas em softwares importantes — e para produzir novos softwares com muito menos bugs de segurança.

Essa é a tese completa. Um modelo capaz de encontrar vulnerabilidades zero-day de forma autônoma é simultaneamente a ferramenta de segurança mais útil já criada e uma das capacidades ofensivas mais perigosas já desenvolvidas. O Project Glasswing é a tentativa de deixar o lado da defesa correr primeiro.

O que já foi encontrado

Isso não é especulativo. Nas últimas semanas, a Anthropic usou o Claude Mythos Preview para identificar milhares de vulnerabilidades zero-day — falhas anteriormente desconhecidas pelos desenvolvedores do software — muitas delas críticas, em todos os principais sistemas operacionais e navegadores web, além de uma variedade de outros softwares importantes.

Um exemplo específico do blog do Anthropic Frontier Red Team: o Mythos Preview identificou e explorou de forma totalmente autônoma uma vulnerabilidade de execução remota de código de 17 anos no FreeBSD (CVE-2026-4747) que permite que qualquer pessoa obtenha acesso root em uma máquina executando NFS — partindo de uma posição não autenticada em qualquer lugar na internet. Nenhum humano esteve envolvido após o prompt inicial.

O compromisso de 90 dias

Este é o detalhe que a maioria das coberturas subestimou. A Anthropic comprometeu-se explicitamente: em 90 dias, reportará publicamente o que aprendeu, bem como as vulnerabilidades corrigidas e as melhorias feitas que possam ser divulgadas. Esse é um compromisso público com prazo determinado — não um vago “compartilharemos aprendizados eventualmente”. Significa que até o início de julho de 2026, deve haver um relatório real do que esse programa encontrou e corrigiu.

Por que a Anthropic Escolheu Essa Abordagem

O problema de uso dual, declarado claramente

Essa é a lógica central, e vale a pena refletir sobre ela. Um modelo capaz de encontrar e exploitar vulnerabilidades de software de forma autônoma não é apenas uma ferramenta de segurança poderosa — é uma ferramenta de ataque poderosa. A capacidade não vem com um detector de intenções. Lançar o Mythos Preview amplamente significa lançar amplamente a capacidade de comprometer infraestruturas críticas.

Esse é o problema do uso dual. Não é que a Anthropic não confie nos desenvolvedores. É que um modelo amplamente disponível capaz de encadear zero-days e escrever exploits funcionais cria um perfil de risco que nenhum ator responsável pode ignorar — independentemente de quem está pedindo. O cartão de sistema do Mythos Preview afirma isso diretamente: “O grande aumento de capacidades do Claude Mythos Preview nos levou a decidir não disponibilizá-lo de forma geral."

"Notavelmente capaz” — e o que isso realmente significa

A linguagem da Anthropic aqui é deliberada. Eles não chamaram o Mythos Preview de “incrementalmente melhor em tarefas de segurança”. A palavra que usaram é “notavelmente capaz”. O modelo pode, por conta própria, realizar tarefas complexas e eficazes de hacking — identificando múltiplas vulnerabilidades não divulgadas, escrevendo código para explorá-las e encadeando-as para penetrar em softwares complexos.

O Mythos Preview também efetivamente saturou os benchmarks internos e externos existentes que a Anthropic usava para rastrear as capacidades dos modelos, o que forçou uma mudança para testes contra tarefas novas do mundo real. Quando seu modelo supera seu conjunto de avaliações, você está em território genuinamente novo.

O que essa restrição explicitamente não é

Vale ser preciso aqui porque o enquadramento importa. Isso não é a Anthropic acumulando capacidades. Não é uma jogada competitiva. A restrição existe porque a assimetria de danos do lançamento amplo se inclina fortemente para o negativo no curto prazo: os defensores precisam de coordenação e tempo para aplicar patches; os atacantes precisam apenas do modelo.

Ao lançar este modelo inicialmente para um grupo limitado de parceiros críticos da indústria, a Anthropic visa permitir que os defensores comecem a proteger os sistemas mais importantes antes que modelos com capacidades semelhantes se tornem amplamente disponíveis.

A lógica é de sequenciamento, não de sigilo.

O que os Participantes do Glasswing Estão Fazendo

Escopo do trabalho

Os parceiros estão usando o Claude Mythos Preview especificamente para segurança defensiva — encontrando e corrigindo vulnerabilidades em sistemas que possuem ou mantêm. O escopo se estende a bases de código próprias e sistemas de código aberto. A inclusão da Linux Foundation é notável precisamente porque muita infraestrutura crítica roda em software de código aberto que historicamente tem sido sub-financiado em termos de segurança.

O que os parceiros estão dizendo

A declaração da Cisco na página oficial do Glasswing: o trabalho mostrou que eles podem identificar e corrigir vulnerabilidades de segurança em hardware e software em um ritmo e escala anteriormente impossíveis. A Microsoft observou que o modelo já está ajudando a fortalecer código em bases de código críticas. A AWS descreveu sua aplicação em uma pilha de tecnologia que lida com mais de 400 trilhões de fluxos de rede diariamente.

Esses não são depoimentos de demonstração. São equipes de segurança de produção descrevendo uso real.

O compromisso de recursos

A Anthropic comprometeu $100M em créditos de uso de modelos para participantes do Project Glasswing durante toda a prévia de pesquisa, junto com $4M em doações diretas para organizações de segurança de código aberto. O acesso tem preço de $25/$125 por milhão de tokens de entrada/saída via API Claude, Amazon Bedrock, Google Cloud’s Vertex AI e Microsoft Foundry.

O que Isso nos Diz sobre a Estratégia de Lançamento da Anthropic

Lançamentos controlados por segurança agora são reais

Antes do Glasswing, “seremos cautelosos ao lançar isso” era principalmente linguagem teórica. Agora é operacional. A Anthropic desenvolveu uma capacidade, a avaliou, decidiu que o perfil de risco impedia a disponibilidade geral e estruturou uma alternativa que ainda cria valor enquanto gerencia o lado negativo. Esse é um modelo.

A implicação prática: nem toda capacidade de fronteira seguirá um lançamento de API pública. Algumas capacidades — particularmente aquelas com potencial de uso dual óbvio — podem ser controladas por programas gerenciados, com acesso condicionado ao tipo de organização, caso de uso ou postura de segurança.

Como isso difere de um beta padrão

Um beta de API normal é sobre prontidão: o modelo não está completamente estável, a documentação está incompleta, você precisa de feedback antes do lançamento geral. O Glasswing é categoricamente diferente. O modelo está pronto. O problema é o que acontece se for amplamente implantado antes que os defensores tenham tido tempo de usá-lo. A restrição é sobre sequenciar o impacto, não sobre maturidade técnica.

Essa distinção importa para como você pensa sobre o que “acesso” a modelos de fronteira significa daqui para frente.

O que vem depois do Glasswing

A Anthropic declarou que não planeja disponibilizar o Mythos Preview de forma geral. Seu objetivo declarado é eventualmente permitir a implantação segura de modelos da classe Mythos em escala — mas isso requer o desenvolvimento de salvaguardas de cibersegurança capazes de detectar e bloquear as saídas mais perigosas do modelo. Eles planejam lançar novas salvaguardas com um próximo modelo Claude Opus, usando-o para melhorar e refinar essas salvaguardas com um modelo que não carrega o mesmo perfil de risco.

Tradução: existe um roteiro de desenvolvimento de segurança que deve preceder o acesso mais amplo. O relatório público de 90 dias será o primeiro ponto de dados real sobre se esse roteiro está avançando.

Implicações para Desenvolvedores e o Ecossistema

O que modelos de fronteira controlados significam para você

Se você está desenvolvendo com IA — seja como líder de infraestrutura, proprietário de produto ou fundador técnico — o Glasswing é o primeiro sinal concreto de que o modelo de acesso para capacidades de fronteira está se bifurcando. As APIs públicas continuarão a atender a maioria dos casos de uso. Mas para capacidades na fronteira do risco de uso dual, programas de acesso gerenciado com verificação organizacional podem se tornar padrão.

Isso não é necessariamente ruim para os desenvolvedores. A alternativa — sem acesso — é pior. Mas significa que o caminho para capacidades de fronteira em domínios sensíveis exigirá cada vez mais demonstrar adequação organizacional, não apenas prontidão técnica.

O que o Glasswing sinaliza sobre futuros modelos de alta capacidade

O padrão que a Anthropic estabeleceu com o Glasswing quase certamente será aplicado novamente. Quando um modelo futuro demonstrar capacidades que criem risco de uso dual significativo — seja em biologia, química, cibernética ou outros domínios — espere o mesmo sequenciamento: acesso restrito a defensores e pesquisadores, um cronograma definido de transparência e relatórios públicos antes de qualquer lançamento mais amplo.

A Anthropic observou que esse trabalho pode levar anos, e que as capacidades de IA de fronteira provavelmente avançarão substancialmente nesse período. Isso não é um caso extremo único. É o início de um padrão de governança.

FAQ

Quem se qualifica para acesso ao Project Glasswing?

O escopo atual abrange dois grupos: parceiros de lançamento nomeados (grandes empresas de tecnologia e segurança listadas publicamente pela Anthropic) e mais de 40 organizações adicionais que desenvolvem ou mantêm infraestrutura de software crítica. Não há processo de inscrição público descrito na página oficial do Glasswing até o momento desta publicação.

Posso me candidatar ao Glasswing como pesquisador independente?

O enquadramento atual é organizacional, não individual. Pesquisadores independentes não são excluídos em princípio — mantenedores de código aberto são mencionados explicitamente — mas o caminho de acesso é através de organizações que mantêm software crítico, não pesquisadores individuais. Se isso mudar, provavelmente seria anunciado através da página oficial do Glasswing.

O Claude Mythos eventualmente se tornará disponível publicamente?

A Anthropic declarou que não planeja disponibilizar o Mythos Preview de forma geral. Um modelo futuro com capacidades da classe Mythos pode se tornar disponível assim que as salvaguardas de segurança necessárias forem desenvolvidas e validadas — mas não há cronograma público para isso.

O que torna o Mythos diferente o suficiente para exigir lançamento restrito?

Duas coisas: capacidade autônoma e escopo. Modelos anteriores podiam auxiliar em tarefas de segurança. O Mythos Preview pode encadear vulnerabilidades, escrever exploits funcionais e identificar bugs anteriormente desconhecidos em todos os principais sistemas operacionais e navegadores — sem envolvimento humano após o prompt inicial. Esse é um perfil de risco qualitativamente diferente.

A Anthropic já fez esse tipo de lançamento controlado antes?

Não nessa escala ou com esse enquadramento explícito de segurança. Lançamentos restritos anteriores eram betas padrão ou programas empresariais. O Glasswing é o primeiro caso em que a Anthropic disse publicamente: essa capacidade é perigosa demais para ser lançada amplamente, e aqui está a alternativa estruturada. Isso é novo.

Mais por vir — o relatório público de 90 dias é o próximo ponto de dados real. Vale acompanhar.

Posts anteriores: