Project Glasswing: Anthropic이 Mythos를 제한하는 이유

저는 한동안 Anthropic의 모델 출시를 추적해왔는데, 4월 7일 발표는 처음으로 멈춰서 두 번 다시 읽게 만든 발표였습니다.

Claude Mythos Preview 가 “강력하다”는 이유에서가 아닙니다 — 그 단어는 지난 2년간 모든 모델 출시에 붙어왔습니다. Anthropic이 이례적인 행동을 했기 때문입니다. 그들은 하나의 역량을 만들어냈고, 출시하기에 너무 위험하다는 결론을 내렸으며, 공격자들이 자신들이 뒤처져 있다는 것을 깨닫기 전에 그 역량을 방어에 활용하도록 특별히 설계된 제한적 프로그램을 구성했습니다. 이것은 다른 종류의 움직임입니다. Project Glasswing은 PR 스토리로서가 아니라, 최전선 AI 거버넌스가 실제로 어떻게 전개되고 있는지 보여주는 창으로서 명확하게 이해할 가치가 있습니다.

저는 여러분의 친구 Dora입니다. 확인된 사실, 그 의미, 그리고 개발자들이 여기서 무엇을 얻어야 하는지 정리했습니다.

Project Glasswing이란 무엇인가

Claude Mythos Preview를 위한 Anthropic의 관리형 액세스 프로그램

Project Glasswing은 Anthropic이 현재까지 가장 유능한 모델인 Claude Mythos Preview를 방어적 사이버보안 작업에 특화하여 배포하기 위한 이니셔티브입니다. 이 모델은 공개적으로 사용할 수 없습니다. 액세스는 중요한 소프트웨어 인프라를 담당하는 엄선된 조직 그룹으로 제한됩니다.

Anthropic이 발표한 런칭 파트너에는 AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks가 포함됩니다. 이 파트너들 외에도 Anthropic은 중요한 소프트웨어 인프라를 구축하거나 유지하는 40개 이상의 추가 조직으로 액세스를 확장했습니다.

목적: 방어자들에게 선제적 기회 제공

Anthropic이 사용하는 표현은 명확합니다. AI 모델을 잘못된 손에서 위험하게 만드는 동일한 역량이 중요한 소프트웨어의 결함을 찾아 수정하고, 보안 버그가 훨씬 적은 새로운 소프트웨어를 만드는 데 있어 매우 귀중하다는 것입니다.

이것이 핵심 논리입니다. 자율적으로 제로데이 취약점을 찾을 수 있는 모델은 동시에 지금까지 만들어진 가장 유용한 보안 도구이자 가장 위험한 공격 역량 중 하나입니다. Project Glasswing은 방어 측이 먼저 실행할 수 있도록 하는 시도입니다.

이미 발견된 것들

이것은 추측이 아닙니다. 지난 몇 주 동안 Anthropic은 Claude Mythos Preview를 사용하여 수천 개의 제로데이 취약점을 식별했습니다 — 소프트웨어 개발자들에게 이전에 알려지지 않은 결함들로, 그 중 많은 것이 주요 운영 체제와 주요 웹 브라우저 전체에서 발견된 치명적인 것들이었습니다.

Anthropic Frontier Red Team 블로그의 구체적인 예시: Mythos Preview는 완전히 자율적으로 FreeBSD에서 17년 된 원격 코드 실행 취약점(CVE-2026-4747)을 식별하고 악용했습니다. 이 취약점은 인터넷 어디서나 인증 없이 NFS를 실행하는 머신에서 루트 권한을 획득할 수 있게 합니다. 초기 프롬프트 이후 인간이 개입하지 않았습니다.

90일 약속

이것은 대부분의 보도에서 과소평가된 세부 사항입니다. Anthropic은 명시적으로 약속했습니다. 90일 이내에 그들이 배운 것과 공개할 수 있는 수정된 취약점 및 개선 사항에 대해 공개적으로 보고할 것입니다. 이것은 시간 제한이 있는 공개 약속입니다 — “언젠가 배운 점을 공유하겠다”는 모호한 말이 아닙니다. 2026년 7월 초까지 이 프로그램이 발견하고 수정한 것에 대한 실제 결산이 있어야 함을 의미합니다.

Anthropic이 이 접근 방식을 선택한 이유

이중 사용 문제, 솔직하게 말하면

이것이 핵심 논리이며, 깊이 생각해볼 가치가 있습니다. 소프트웨어 취약점을 자율적으로 찾아 악용할 수 있는 모델은 단순히 강력한 보안 도구가 아닙니다 — 강력한 공격 도구이기도 합니다. 그 역량에는 의도 감지기가 내장되어 있지 않습니다. Mythos Preview를 광범위하게 출시하는 것은 중요 인프라를 침해하는 능력을 광범위하게 출시하는 것을 의미합니다.

이것이 이중 사용 문제입니다. Anthropic이 개발자들을 신뢰하지 않는 것이 아닙니다. 제로데이를 연결하고 작동하는 익스플로잇을 작성할 수 있는 광범위하게 사용 가능한 모델이 책임 있는 행위자라면 누구도 무시할 수 없는 위험 프로파일을 만든다는 것입니다 — 누가 요청하든 상관없이. Mythos Preview의 시스템 카드에는 직접적으로 명시되어 있습니다: “Claude Mythos Preview의 역량이 크게 향상되어 우리는 이를 일반적으로 사용 가능하게 하지 않기로 결정했습니다."

"놀라울 정도로 유능한” — 그리고 그것이 실제로 의미하는 것

Anthropic의 언어는 의도적입니다. 그들은 Mythos Preview를 “보안 작업에서 점진적으로 더 나아진” 것이라고 부르지 않았습니다. 그들이 사용한 단어는 “놀라울 정도로 유능한”입니다. 이 모델은 복잡하고 효과적인 해킹 작업을 단독으로 수행할 수 있습니다 — 여러 미공개 취약점을 식별하고, 이를 악용하는 코드를 작성하며, 이를 연결하여 복잡한 소프트웨어를 침투합니다.

Mythos Preview는 또한 Anthropic이 모델 역량을 추적하는 데 사용하던 기존 내부 및 외부 벤치마크를 사실상 포화 상태로 만들었으며, 이로 인해 새로운 실제 작업에 대한 테스트로 전환이 필요했습니다. 모델이 평가 체계를 넘어설 때, 당신은 진정으로 새로운 영역에 있는 것입니다.

이 제한이 명시적으로 아닌 것

프레이밍이 중요하기 때문에 여기서 정확하게 말하는 것이 가치가 있습니다. 이것은 Anthropic이 역량을 독점하는 것이 아닙니다. 경쟁적 움직임도 아닙니다. 제한이 존재하는 이유는 광범위한 출시로 인한 피해의 비대칭성이 단기적으로 크게 부정적으로 기울기 때문입니다. 방어자들은 패치를 위한 조율과 시간이 필요하지만, 공격자들은 모델만 있으면 됩니다.

이 모델을 처음에 제한된 핵심 산업 파트너 그룹에 출시함으로써, Anthropic은 유사한 역량을 가진 모델이 광범위하게 사용 가능해지기 전에 방어자들이 가장 중요한 시스템을 보호하기 시작할 수 있도록 하는 것을 목표로 합니다.

논리는 비밀이 아닌 순서입니다.

Glasswing 참여자들이 하는 일

작업 범위

파트너들은 Claude Mythos Preview를 특별히 방어적 보안 — 그들이 소유하거나 유지하는 시스템의 취약점 찾기 및 수정 — 에 사용하고 있습니다. 범위는 자체 코드베이스와 오픈소스 시스템으로 확장됩니다. Linux Foundation의 포함은 너무나 많은 중요 인프라가 역사적으로 보안에 자원이 부족했던 오픈소스 소프트웨어로 실행된다는 점에서 주목할 만합니다.

파트너들이 말하는 것

공식 Glasswing 페이지에서 Cisco의 성명: 이 작업은 이전에는 불가능했던 속도와 규모로 하드웨어와 소프트웨어 전반에 걸쳐 보안 취약점을 식별하고 수정할 수 있음을 보여주었습니다. Microsoft는 이 모델이 이미 중요한 코드베이스의 코드를 강화하는 데 도움이 되고 있다고 밝혔습니다. AWS는 하루에 400조 건 이상의 네트워크 흐름을 처리하는 기술 스택 전반에 적용하고 있다고 설명했습니다.

이것들은 데모 추천사가 아닙니다. 실제 사용을 설명하는 프로덕션 보안 팀들의 이야기입니다.

자원 약속

Anthropic은 연구 미리보기 기간 동안 Project Glasswing 참여자들에게 1억 달러의 모델 사용 크레딧과 오픈소스 보안 조직에 400만 달러의 직접 기부를 약속했습니다. 액세스 가격은 Claude API, Amazon Bedrock, Google Cloud의 Vertex AI, Microsoft Foundry를 통해 입력/출력 토큰 백만 개당 $25/$125입니다.

이것이 Anthropic의 출시 전략에 대해 말해주는 것

안전 게이트 출시는 이제 현실이다

Glasswing 이전에 “이것을 출시하는 데 신중할 것이다”는 대부분 이론적인 언어였습니다. 이제 그것은 실제로 작동합니다. Anthropic은 역량을 만들고, 평가하고, 위험 프로파일이 일반적 가용성을 배제한다고 결정하고, 단점을 관리하면서 여전히 가치를 창출하는 대안을 구성했습니다. 이것은 하나의 템플릿입니다.

실질적인 함의: 모든 최전선 역량이 공개 API 출시를 따르지는 않을 것입니다. 일부 역량 — 특히 명확한 이중 사용 잠재력을 가진 것들 — 은 조직 유형, 사용 사례 또는 보안 태세에 따라 액세스가 조건부인 관리형 프로그램 뒤에 게이트될 수 있습니다.

표준 베타와의 차이점

일반적인 API 베타는 준비도에 관한 것입니다. 모델이 완전히 안정적이지 않고, 문서가 불완전하며, 일반 출시 전에 피드백이 필요합니다. Glasswing은 범주적으로 다릅니다. 모델은 준비되어 있습니다. 문제는 방어자들이 그것을 사용할 시간을 갖기 전에 광범위하게 배포될 경우 무슨 일이 일어나느냐입니다. 제한은 기술적 성숙도가 아닌 영향의 순서에 관한 것입니다.

이 구별은 앞으로 최전선 모델에 대한 “액세스”가 무엇을 의미하는지 생각하는 방식에 중요합니다.

Glasswing 이후에는 무엇이

Anthropic은 Mythos Preview를 일반적으로 사용 가능하게 할 계획이 없다고 밝혔습니다. 그들의 명시된 목표는 결국 Mythos급 모델의 안전한 대규모 배포를 가능하게 하는 것입니다 — 그러나 이를 위해서는 모델의 가장 위험한 출력을 감지하고 차단할 수 있는 사이버보안 안전장치를 개발해야 합니다. 그들은 다가오는 Claude Opus 모델과 함께 새로운 안전장치를 출시할 계획이며, 동일한 위험 프로파일을 가지지 않는 모델로 그 안전장치를 개선하고 정제하는 데 사용할 것입니다.

번역하면: 더 광범위한 액세스에 앞서 진행되어야 하는 안전 개발 로드맵이 있습니다. 90일 공개 보고서는 그 로드맵이 진행되고 있는지에 대한 첫 번째 실제 데이터 포인트가 될 것입니다.

개발자와 생태계에 대한 함의

게이트된 최전선 모델이 당신에게 의미하는 것

AI를 기반으로 개발하는 경우 — 인프라 리드, 제품 책임자, 또는 기술 창업자로서든 — Glasswing은 최전선 역량에 대한 액세스 모델이 이분화되고 있다는 첫 번째 구체적인 신호입니다. 공개 API는 대부분의 사용 사례를 계속 담당할 것입니다. 그러나 이중 사용 위험의 최전선에 있는 역량의 경우, 조직 심사를 동반한 관리형 액세스 프로그램이 표준이 될 수 있습니다.

이것이 개발자들에게 반드시 나쁜 것은 아닙니다. 대안 — 액세스 없음 — 은 더 나쁩니다. 그러나 민감한 도메인에 대한 최전선 역량으로의 경로는 기술적 준비도뿐만 아니라 조직적 적합성을 증명하는 것을 점점 더 요구할 것입니다.

Glasswing이 미래 고역량 모델에 대해 시사하는 것

Anthropic이 Glasswing으로 확립한 패턴은 거의 확실히 다시 적용될 것입니다. 미래 모델이 의미 있는 이중 사용 위험을 만드는 역량을 보여줄 때 — 생물학, 화학, 사이버 또는 다른 도메인에서든 — 동일한 순서를 예상하십시오: 방어자와 연구자들에 대한 제한적 액세스, 명확한 투명성 타임라인, 그리고 더 광범위한 출시 전 공개 보고.

Anthropic은 이 작업이 수년이 걸릴 수 있으며, 그 기간 동안 최전선 AI 역량이 상당히 발전할 가능성이 높다고 밝혔습니다. 이것은 일회성 예외 사례가 아닙니다. 거버넌스 패턴의 시작입니다.

자주 묻는 질문

Project Glasswing 액세스 자격은 누가 갖나요?

현재 범위는 두 그룹을 포괄합니다: Anthropic이 공개적으로 나열한 대형 기술 및 보안 회사인 지명된 런칭 파트너와 중요한 소프트웨어 인프라를 구축하거나 유지하는 40개 이상의 추가 조직. 이 글 작성 시점에서 공식 Glasswing 페이지에는 설명된 공개 신청 절차가 없습니다.

독립 연구자로서 Glasswing에 신청할 수 있나요?

현재 프레이밍은 개인이 아닌 조직을 기반으로 합니다. 독립 연구자들이 원칙적으로 배제되지는 않습니다 — 오픈소스 메인테이너들이 명시적으로 언급됩니다 — 그러나 액세스 경로는 개별 연구자가 아닌 중요 소프트웨어를 유지하는 조직을 통해서입니다. 이것이 바뀐다면 공식 Glasswing 페이지를 통해 발표될 가능성이 높습니다.

Claude Mythos가 결국 공개적으로 사용 가능해질까요?

Anthropic은 Mythos Preview를 일반적으로 사용 가능하게 할 계획이 없다고 밝혔습니다. 필요한 안전 안전장치가 개발되고 검증되면 Mythos급 역량을 가진 미래 모델이 사용 가능해질 수 있습니다 — 그러나 그에 대한 공개 타임라인은 없습니다.

Mythos가 제한적 출시를 요구할 만큼 충분히 다른 점은 무엇인가요?

두 가지: 자율적 역량과 범위. 이전 모델들은 보안 작업을 지원할 수 있었습니다. Mythos Preview는 취약점을 연결하고, 작동하는 익스플로잇을 작성하며, 초기 프롬프트 이후 인간 개입 없이 모든 주요 OS와 브라우저에서 이전에 알려지지 않은 버그를 식별할 수 있습니다. 이것은 질적으로 다른 위험 프로파일입니다.

Anthropic이 이런 종류의 게이트된 출시를 전에 한 적이 있나요?

이 규모나 이 명시적인 안전 프레이밍으로는 없습니다. 이전의 제한적 출시는 표준 베타나 엔터프라이즈 프로그램이었습니다. Glasswing은 Anthropic이 공개적으로 말한 첫 번째 사례입니다: 이 역량은 광범위하게 출시하기에 너무 위험하며, 여기 구조화된 대안이 있습니다. 그것은 새로운 것입니다.

더 많은 정보가 올 것입니다 — 90일 공개 보고서가 다음 실제 데이터 포인트입니다. 주목할 가치가 있습니다.

이전 게시물: