プロジェクトGlasswing：AnthropicがMythosを制限する理由

私はしばらくの間Anthropicのモデルリリースを追跡してきたが、4月7日の発表は初めて本当に足を止めて二度読み返したものだった。

Claude Mythos Preview が「強力」だからではない——その言葉は二年間、あらゆるモデルリリースに使われてきた。しかしAnthropicは珍しいことをした：ある能力を構築し、リリースするにはリスクが高すぎると結論づけ、攻撃者が遅れを取っていることに気づく前に、その能力を防衛目的で活用するために特別に設計された制限付きプログラムを組んだのだ。それは異なる種類の動きだ。Project Glasswingは、PR話としてではなく、フロンティアAIガバナンスが実際にどのように進行しているかを垣間見るものとして、明確に理解する価値がある。

私はあなたの友人、Doraだ。確認されていること、その意味、そしてビルダーが何を学ぶべきかを説明しよう。

Project Glasswingとは

Claude Mythos PreviewのAnthropicによる管理アクセスプログラム

Project Glasswingは、Anthropicのイニシアチブであり、Claude Mythos Preview——現時点で最も高性能なモデル——を防衛的なサイバーセキュリティ作業に特化して展開するものだ。このモデルは一般公開されていない。アクセスは重要なソフトウェアインフラに取り組む厳選された組織グループに制限されている。

Anthropicが名指しした立ち上げパートナーには、AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networksが含まれる。これらの名指しパートナーに加え、Anthropicは重要なソフトウェアインフラを構築または維持する40以上の追加組織へのアクセスも拡大している。

目的：防衛側に先手を与える

Anthropicが使うフレーミングは明確だ：AIモデルを間違った手に渡すと危険にさせる同じ能力が、重要なソフトウェアの欠陥を見つけて修正し、セキュリティバグをはるかに少なくした新しいソフトウェアを生成するために非常に価値があるのだ。

それが全体のテーゼだ。自律的にゼロデイ脆弱性を発見できるモデルは、これまでに作られた最も有用なセキュリティツールであると同時に、最も危険な攻撃能力の一つでもある。Project Glasswingは、防衛側が先に動けるようにする試みだ。

すでに発見されていること

これは推測ではない。過去数週間で、AnthropicはClaude Mythos Previewを使用して数千のゼロデイ脆弱性を特定した——ソフトウェア開発者にも以前は未知だった欠陥で、その多くは重大なもので、あらゆる主要なオペレーティングシステムとあらゆる主要なウェブブラウザ、その他の重要なソフトウェアの数々に存在していた。

Anthropic Frontier Red Teamブログからの具体的な例：Mythos Previewは完全に自律的に、FreeBSDにある17年前のリモートコード実行脆弱性（CVE-2026-4747）を特定して悪用した。この脆弱性により、インターネット上のどこからでも認証なしのポジションからNFSを実行しているマシンでrootを取得できる。最初のプロンプト後、人間は関与していない。

90日間のコミットメント

これはほとんどの報道が軽視してきた詳細だ。Anthropicは明確にコミットしている：90日以内に、学んだことと、開示可能な修正された脆弱性および改善について公に報告するとしている。それは時間的拘束力のある公的なコミットメントであり、曖昧な「いつかは知見を共有する」ではない。2026年7月初旬までに、このプログラムが見つけて修正したことの実際の説明があるはずだということを意味する。

AnthropicがこのアプローチをChooseした理由

デュアルユース問題、率直に述べると

これが核心的な論理であり、じっくり考える価値がある。自律的にソフトウェアの脆弱性を見つけて悪用できるモデルは、強力なセキュリティツールであるだけでなく、強力な攻撃ツールでもある。その能力には意図検出器は付いていない。Mythos Previewを広く公開することは、重要インフラを侵害する能力を広く公開することを意味する。

それがデュアルユース問題だ。Anthropicが開発者を信頼していないということではない。ゼロデイをチェーンし、動作するエクスプロイトを書けるモデルが広く利用可能になると、誰が求めているかに関わらず、責任ある主体が無視できないリスクプロファイルが生まれるということだ。Mythos Previewのシステムカードはそれを直接述べている：「Claude Mythos Previewの能力の大幅な向上により、一般公開しないことを決定した。」

「驚くほど有能」——それが実際に意味すること

Anthropicのここでの言葉遣いは意図的だ。Mythos Previewをセキュリティタスクで「段階的に向上した」とは呼ばなかった。彼らが使った言葉は「驚くほど有能」だ。このモデルは単独で複雑かつ効果的なハッキングタスクを実行できる——複数の未開示の脆弱性を特定し、それらを悪用するコードを書き、それらをチェーンして複雑なソフトウェアに侵入する。

Mythos Previewはまた、Anthropicがモデルの能力を追跡するために使用していた既存の社内外のベンチマークを事実上飽和させ、新しい実世界のタスクに対するテストへの移行を余儀なくさせた。モデルが評価スイートを超えるとき、あなたは本当に新しい領域にいる。

この制限が明示的に何でないか

フレーミングが重要なので、ここで正確にすることは価値がある。これはAnthropicが能力を独占していることではない。競争的な動きでもない。制限が存在するのは、広くリリースした場合の被害の非対称性が近い将来、急激にネガティブに傾くからだ：防衛側はパッチを当てるための調整と時間が必要で、攻撃者はモデルだけが必要だ。

このモデルを最初に重要な産業パートナーの限られたグループに公開することで、Anthropicは、同様の能力を持つモデルが広く利用可能になる前に、防衛側が最も重要なシステムを保護し始められるようにすることを目指している。

論理は秘密主義ではなく、シーケンシングだ。

Glasswing参加者がやっていること

作業の範囲

パートナーはClaude Mythos Previewを特に防衛的なセキュリティのために使用している——自分たちが所有または維持するシステムの脆弱性を見つけて修正することだ。範囲はファーストパーティのコードベースとオープンソースシステムに及ぶ。Linux Foundationの参加は、多くの重要インフラがセキュリティのためのリソースが歴史的に不足していたオープンソースソフトウェア上で動作しているため、特に注目される。

パートナーが語ること

公式GlasswingページからのCiscoの声明：この作業により、以前は不可能だったペースとスケールでハードウェアとソフトウェア全体のセキュリティ脆弱性を特定して修正できることが示されたという。Microsoftは、このモデルがすでに重要なコードベースのコードを強化するのに役立っていると述べた。AWSは、1日に400兆以上のネットワークフローを処理する技術スタック全体に適用していると説明した。

これらはデモの証言ではない。実際の使用状況を説明している本番のセキュリティチームだ。

リソースのコミットメント

Anthropicは研究プレビュー期間中、Project Glasswing参加者に対して1億ドルのモデル使用クレジットと、オープンソースセキュリティ組織への400万ドルの直接寄付をコミットしている。アクセスは、Claude API、Amazon Bedrock、Google CloudのVertex AI、およびMicrosoft Foundryを通じて、入力/出力トークン100万あたり25ドル/125ドルで価格設定されている。

これがAnthropicのリリース戦略について教えること

安全性でゲートされたリリースは今や現実だ

Glasswing以前は、「これのリリースには慎重になる」はほぼ理論的な言語だった。今は実際に機能している。Anthropicは能力を構築し、評価し、リスクプロファイルが一般提供を妨げると決定し、ダウンサイドを管理しながら価値を生み出す代替案を構造化した。それがテンプレートだ。

実際的な意味：すべてのフロンティア能力が公開APIリリースに従うわけではない。特に明らかなデュアルユースの可能性を持つ能力は、管理されたプログラムの背後にゲートされ、アクセスが組織の種類、ユースケース、またはセキュリティ態勢を条件としている可能性がある。

標準ベータとの違い

通常のAPIベータは準備状態についてだ：モデルが完全に安定していない、ドキュメントが不完全、一般リリース前にフィードバックが必要。Glasswingは根本的に異なる。モデルは準備できている。問題は、防衛側がそれを使う時間を持つ前に広く展開された場合に何が起こるかだ。制限は技術的な成熟度ではなく、影響のシーケンシングについてだ。

この区別は、今後フロンティアモデルへの「アクセス」が何を意味するかについてどのように考えるかに重要だ。

Glasswingの後に来るもの

AnthropicはMythos Previewを一般公開するつもりはないと述べている。Mythosクラスのモデルを最終的に安全に大規模展開できるようにすることが彼らの目標だが、それにはモデルの最も危険な出力を検出してブロックできるサイバーセキュリティセーフガードの開発が必要だ。彼らは次のClaude Opusモデルで新しいセーフガードを立ち上げ、同じリスクプロファイルを持たないモデルを使ってそれらのセーフガードを改善し洗練させる計画だ。

翻訳すると：より広いアクセスに先行しなければならない安全性開発ロードマップがある。90日間の公開報告がそのロードマップが進展しているかどうかの最初の実際のデータポイントになるだろう。

ビルダーとエコシステムへの示唆

ゲートされたフロンティアモデルがあなたにとって何を意味するか

AIの上に構築しているなら——インフラリード、プロダクトオーナー、テクニカルファウンダーのいずれとしても——Glasswingはフロンティア能力のアクセスモデルが二分化しているという最初の具体的なシグナルだ。公開APIはほとんどのユースケースを引き続きカバーするだろう。しかしデュアルユースリスクのフロンティアにある能力については、組織の審査を伴う管理されたアクセスプログラムが標準になるかもしれない。

それはビルダーにとって必ずしも悪いことではない。代替案——アクセスなし——の方が悪い。しかしそれは、機密ドメインのフロンティア能力への道が、技術的な準備だけでなく、組織の適合性を示すことをますます必要とすることを意味する。

Glasswingが将来の高性能モデルについて示唆すること

AnthropicがGlasswingで確立したパターンはほぼ確実に再び適用される。将来のモデルが意味のあるデュアルユースリスクを生み出す能力を示したとき——生物学、化学、サイバー、または他のドメインであれ——同じシーケンシングを期待してほしい：防衛側と研究者への制限アクセス、定義された透明性タイムライン、そして広いロールアウト前の公開報告。

Anthropicはこの作業に数年かかる可能性があると指摘し、その間にフロンティアAI能力が大幅に進歩する可能性が高いと述べている。これは一回限りのエッジケースではない。それはガバナンスパターンの始まりだ。

FAQ

Project Glasswingアクセスの資格があるのは誰か？

現在の範囲は二つのグループをカバーしている：名指しされた立ち上げパートナー（Anthropicによって公式に掲載された大手テクノロジーおよびセキュリティ企業）と、重要なソフトウェアインフラを構築または維持する40以上の追加組織だ。この記事を書いている時点では、公式Glasswingページに公開申請プロセスの説明はない。

独立した研究者としてGlasswingに申し込めるか？

現在のフレーミングは個人ではなく組織的だ。独立した研究者は原則として除外されていない——オープンソースメンテナーは明示的に言及されている——しかしアクセス経路は個人の研究者ではなく、重要なソフトウェアを維持する組織を通じてだ。これが変わる場合、公式Glasswingページで発表される可能性が高い。

Claude Mythosはいつか一般公開されるか？

AnthropicはMythos Previewを一般公開するつもりはないと述べている。Mythosクラスの能力を持つ将来のモデルは、必要な安全性セーフガードが開発・検証された後に利用可能になるかもしれないが、それに関する公開タイムラインはない。

Mythosが制限リリースを必要とするのに十分なほど異なる点は何か？

二つのことだ：自律的な能力とスコープ。以前のモデルはセキュリティタスクを支援できた。Mythos Previewは脆弱性をチェーンし、動作するエクスプロイトを書き、最初のプロンプト後に人間の関与なしにすべての主要なOSとブラウザ全体で以前は未知のバグを特定できる。それは質的に異なるリスクプロファイルだ。

Anthropicはこの種のゲートリリースを以前にやったことがあるか？

このスケールや明示的な安全性フレーミングでは行っていない。以前の制限リリースは標準的なベータまたはエンタープライズプログラムだった。Glasswingは、Anthropicが公に「この能力は広くリリースするには危険すぎる、そしてここに構造化された代替案がある」と述べた最初のケースだ。それは新しい。

続報は来る——90日間の公開報告が次の実際のデータポイントだ。注目する価値がある。

過去の投稿：