Project Glasswing：Anthropic為何限制Mythos的使用

我追蹤 Anthropic 模型發布已有一段時間，而 4 月 7 日的公告是第一個讓我真正停下來重讀兩遍的。

不是因為 Claude Mythos Preview 很「強大」——這個詞已經被套用在兩年來的每一次模型發布上。而是因為 Anthropic 做了一件不尋常的事：他們建立了一項能力，得出結論認為發布風險太高，於是設計了一個受限計畫，專門利用這項能力在攻擊者發現自己落後之前先行防禦。這是一種不同的做法。Project Glasswing 值得我們清晰地理解——不是作為一個公關故事，而是作為了解前沿 AI 治理實際運作方式的窗口。

我是你的朋友 Dora。以下是已確認的內容、其意義，以及建構者應從中得到的啟示。

Project Glasswing 是什麼

Anthropic 針對 Claude Mythos Preview 的管理存取計畫

Project Glasswing 是 Anthropic 的倡議計畫，專門將 Claude Mythos Preview——他們迄今最強大的模型——部署於防禦性網路安全工作。該模型並未公開提供。存取權僅限於一組經過精心挑選、從事關鍵軟體基礎設施工作的組織。

Anthropic 公布的啟動合作夥伴包括 AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux 基金會、Microsoft、NVIDIA 和 Palo Alto Networks。除這些具名合作夥伴外，Anthropic 還向超過 40 個建立或維護關鍵軟體基礎設施的額外組織擴展了存取權限。

目的：給予防禦方先機

Anthropic 使用的框架表述明確：使 AI 模型在錯誤的人手中變得危險的相同能力，同樣使其在發現和修復重要軟體缺陷方面具有無可替代的價值——並且能夠生產安全漏洞更少的新軟體。

這就是整個論點。一個能夠自主發現零日漏洞的模型，同時是有史以來最有用的安全工具，也是有史以來最危險的攻擊能力之一。Project Glasswing 正是試圖讓防禦方先行一步。

已經發現了什麼

這並非推測。在過去幾週內，Anthropic 使用 Claude Mythos Preview 識別出數以千計的零日漏洞——這些缺陷此前對軟體開發者來說是未知的——其中許多是關鍵漏洞，存在於每個主要作業系統和每個主要網路瀏覽器中，以及其他一系列重要軟體之中。

來自 Anthropic Frontier Red Team 部落格的一個具體例子：Mythos Preview 完全自主地識別並利用了 FreeBSD 中一個存在 17 年的遠端程式碼執行漏洞（CVE-2026-4747），該漏洞允許任何人在運行 NFS 的機器上獲得 root 權限——從網際網路上任何位置的未驗證狀態開始。在初始提示之後，沒有任何人工介入。

90 天承諾

這是大多數報導所低估的細節。Anthropic 已明確承諾：在 90 天內，他們將公開報告所學到的內容，以及可以披露的已修復漏洞和改進措施。這是一個有時限的公開承諾——而不是模糊的「我們最終會分享學習成果」。這意味著到 2026 年 7 月初，應該會有一份關於此計畫發現和修復內容的真實報告。

Anthropic 為何選擇這種方式

雙重用途問題，直白陳述

這是核心邏輯，值得我們靜下心來思考。一個能夠自主發現和利用軟體漏洞的模型，不僅僅是一個強大的安全工具——它也是一個強大的攻擊工具。這種能力並不附帶意圖偵測器。廣泛發布 Mythos Preview 意味著廣泛發布危害關鍵基礎設施的能力。

這就是雙重用途問題。並非 Anthropic 不信任開發者。而是一個能夠串聯零日漏洞並編寫可用利用程式的廣泛可用模型，會產生任何負責任的行為者都無法忽視的風險狀況——無論是誰在詢問。Mythos Preview 的系統卡直接說明了這一點：「Claude Mythos Preview 能力的大幅提升使我們決定不將其公開提供。」

「驚人的能力」——以及這實際上意味著什麼

Anthropic 在這裡的措辭是刻意的。他們沒有稱 Mythos Preview「在安全任務方面逐步改進」。他們使用的詞是「驚人的能力」。該模型能夠單獨執行複雜、有效的駭客任務——識別多個未公開的漏洞、編寫利用程式碼，並將這些串聯起來入侵複雜軟體。

Mythos Preview 也已實際上讓 Anthropic 用於追蹤模型能力的現有內部和外部基準測試達到飽和，這迫使他們轉向針對新穎現實任務進行測試。當你的模型超越了你的評估套件時，你就真正進入了新的領域。

這項限制明確不是什麼

在這裡需要精確，因為框架很重要。這不是 Anthropic 囤積能力。這不是競爭性舉動。限制存在是因為廣泛發布的傷害不對稱性在近期內急劇偏向負面：防禦者需要協調和時間來修補；攻擊者只需要這個模型。

透過最初向有限的關鍵行業合作夥伴發布此模型，Anthropic 旨在讓防禦者在具有類似能力的模型廣泛普及之前，開始保護最重要的系統。

其邏輯是排序，而非保密。

Glasswing 參與者在做什麼

工作範圍

合作夥伴專門使用 Claude Mythos Preview 進行防禦性安全工作——在他們擁有或維護的系統中發現和修復漏洞。範圍延伸至第一方程式碼庫和開源系統。Linux 基金會的加入特別值得注意，因為大量關鍵基礎設施運行在開源軟體上，而這些軟體歷來在安全方面資源不足。

合作夥伴的說法

Cisco 在官方 Glasswing 頁面上的聲明：這項工作表明他們能夠以前所未有的速度和規模識別並修復硬體和軟體中的安全漏洞。Microsoft 指出該模型已在幫助加強關鍵程式碼庫中的程式碼。AWS 描述了將其應用於每日處理超過 400 兆網路流量的技術堆疊。

這些不是示範性的推薦。這些是生產安全團隊描述實際使用情況。

資源承諾

Anthropic 在整個研究預覽期間為 Project Glasswing 參與者承諾提供 1 億美元的模型使用積分，以及向開源安全組織直接捐贈 400 萬美元。透過 Claude API、Amazon Bedrock、Google Cloud 的 Vertex AI 和 Microsoft Foundry，每百萬輸入/輸出 token 的定價分別為 25 美元/125 美元。

這告訴我們什麼關於 Anthropic 的發布策略

安全門控發布現在是真實的

在 Glasswing 之前，「我們對發布這個會謹慎」大多是理論性語言。現在它已成為可操作的實踐。Anthropic 建立了一項能力，評估它，決定風險狀況排除了一般可用性，並設計了一種仍然創造價值同時管理下行風險的替代方案。這是一個模板。

實際含義：並非每一種前沿能力都會遵循公開 API 發布。某些能力——特別是那些具有明顯雙重用途潛力的能力——可能會在管理計畫後面設置門控，存取條件取決於組織類型、使用案例或安全狀態。

這與標準測試版有何不同

普通 API 測試版關乎的是就緒程度：模型還不夠穩定，文件不完整，在正式發布前需要回饋。Glasswing 則是截然不同的類別。模型已經就緒。問題在於如果在防禦者有時間使用它之前廣泛部署會發生什麼。限制是關於排序影響，而不是技術成熟度。

這個區別對於你如何思考未來「存取」前沿模型意味著什麼很重要。

Glasswing 之後是什麼

Anthropic 已表示他們不打算讓 Mythos Preview 普遍可用。他們聲明的目標是最終能夠大規模安全部署 Mythos 級別的模型——但這需要開發能夠偵測和阻止模型最危險輸出的網路安全防護措施。他們計畫在即將推出的 Claude Opus 模型中啟動新的防護措施，使用它來改進和完善那些不帶有相同風險狀況的模型的防護措施。

翻譯：有一個安全開發路線圖必須先於更廣泛的存取。90 天公開報告將是關於該路線圖是否在推進的第一個真實數據點。

對建構者和生態系統的影響

門控前沿模型對你意味著什麼

如果你在 AI 上進行建構——無論是作為基礎設施主管、產品負責人還是技術創始人——Glasswing 是前沿能力存取模型正在分叉的第一個具體信號。公開 API 將繼續承擔大多數使用案例。但對於雙重用途風險前沿的能力，帶有組織審查的管理存取計畫可能會成為標準。

這對建構者來說不一定是壞事。替代方案——完全無法存取——更糟。但這確實意味著敏感領域前沿能力的路徑將越來越需要展示組織適配性，而不僅僅是技術就緒程度。

Glasswing 對未來高能力模型釋放了什麼信號

Anthropic 通過 Glasswing 建立的模式幾乎肯定會再次被應用。當未來的模型展示出產生有意義雙重用途風險的能力時——無論是在生物學、化學、網路還是其他領域——預期會有相同的排序：向防禦者和研究人員限制存取、一個明確的透明時間表，以及在任何更廣泛推出之前的公開報告。

Anthropic 已注意到這項工作可能需要數年，並且前沿 AI 能力可能在此期間大幅提升。這不是一次性的邊緣案例。這是治理模式的開始。

常見問題

誰有資格獲得 Project Glasswing 的存取權限？

當前範圍涵蓋兩組：具名啟動合作夥伴（Anthropic 公開列出的大型科技和安全公司）以及超過 40 個建立或維護關鍵軟體基礎設施的額外組織。截至本文撰寫時，官方 Glasswing 頁面上沒有描述公開申請流程。

我可以作為獨立研究人員申請 Glasswing 嗎？

當前框架是以組織為單位，而不是個人。獨立研究人員在原則上並未被排除——開源維護者被明確提及——但存取途徑是通過維護關鍵軟體的組織，而不是個人研究人員。如果這種情況改變，可能會通過官方 Glasswing 頁面公告。

Claude Mythos 最終會公開提供嗎？

Anthropic 已表示他們不打算讓 Mythos Preview 普遍可用。具有 Mythos 級別能力的未來模型可能會在必要的安全防護措施開發和驗證之後變得可用——但對此沒有公開時間表。

是什麼讓 Mythos 與眾不同，需要受限發布？

兩點：自主能力和範圍。以前的模型可以協助安全任務。Mythos Preview 可以串聯漏洞、編寫可用的利用程式，並在每個主要作業系統和瀏覽器中識別之前未知的漏洞——在初始提示後無需人工介入。這是一個質上不同的風險狀況。

Anthropic 以前做過這種門控發布嗎？

沒有這種規模或如此明確的安全框架。以前的限制發布是標準測試版或企業計畫。Glasswing 是 Anthropic 首次公開表示：這項能力太危險，無法廣泛發布，這是結構化的替代方案。這是新的。

更多內容即將到來——90 天公開報告是下一個真正的數據點。值得關注。

往期文章：