← 部落格

什麼是RTK以及為何Token效率至關重要

RTK能減少AI編碼工作流程中大量消耗Token的終端輸出。以下說明為何Token效率在2026年比大多數團隊意識到的更為重要。

3 min read
什麼是RTK以及為何Token效率至關重要

我最初把這當成一個小麻煩。在一個 Rust 專案上進行了 30 分鐘的 Claude Code 工作後,代理說:「我已經失去了我們正在做什麼的脈絡。」這不是模型失敗——而是上下文視窗的問題。我查了使用量,約 20 萬個 token 中有 ~11.8 萬個被 cargo test 輸出、git status 傾印和一個冗長的 find 命令所消耗。

那一刻,RTK​ AI 對我來說從一個好奇心變成了一個認真的搜尋關鍵字。Token 效率不再是一個「不錯的優化」——它是一個硬性限制,決定了代理在上下文被 shell 樣板淹沒之前,能持續多久對你的程式碼進行推理。這篇文章探討 RTK 是什麼、為什麼 AI 程式設計 token 成本這個更廣泛的問題已從計費轉變為基礎設施議題,以及這類工具適合的位置。

免責聲明:我從事與 WaveSpeedAI 相鄰的代理基礎設施工作,與 RTK 沒有商業關係。這裡的框架是關於這個類別,而不是單一工具。

RTK 是什麼以及為何它正在流行

RTK(Rust Token Killer)是一個用 Rust 撰寫的開源 CLI 代理,採用 MIT 授權,在 shell 命令輸出到達 AI 程式設計代理的上下文視窗之前攔截它。根據其 README 和官方網站,它聲稱在 100 多個支援的命令中可減少 60–90% 的 token 用量。截至 2026 年 4 月底,該倉庫已到 v0.38.0,仍在積極開發中。

其機制是一個單一的二進位檔案。你執行 rtk init -g 來配置你的代理——Claude Code、Cursor、Copilot、Gemini CLI、Codex、Windsurf、Cline 等都受支援。它安裝一個 PreToolUse 鉤子,透明地將 git status 改寫為 rtk git status、將 cargo test 改寫為 rtk cargo test,依此類推。代理不知道改寫發生了,它只看到更小的壓縮輸出。

它實際上改變了終端機工作流程的什麼

標準的 git status 輸出包含約 120 個 token 的有用資訊,外加另外約 80 個 token 的提示文字(「使用 git add…」的建議、分支追蹤樣板、說明)。RTK 去除提示,保留檔案列表。模型獲得相同資訊,雜訊減少約 60–75%。

cargo test 才是壓縮變得有趣的地方。一次有 262 個通過測試和 3 個失敗的執行,會傾印 262 行 test::name … ok 加上 3 個失敗追蹤。代理只需要失敗追蹤和計數。RTK 將雜訊分組,保留有效訊號。作者發布了 Show HN 基準測試,顯示在 15 天內跨 7,061 個命令節省了 2,460 萬個 token——他自己使用中達到 83.7% 的效率。

這種 token 優化 CLI 不會改變你的工作方式。你繼續輸入 git status,代理繼續呼叫 git status,而在它們之間傳輸的位元組縮小了。

為什麼輸出壓縮對代理工具很重要

輸出壓縮不僅僅是節省 token,更關乎你的代理讀取什麼。20 萬個 token 的上下文視窗聽起來很大,但算一下就知道了:每個工作階段 60 個 shell 命令 × 每個原始輸出約 3,500 個 token = 21 萬個 token 的 CLI 雜訊。在代理推理你的任何一行程式碼之前,這已經超過了視窗。

這是 RTK 專案文件說得對的地方:成本不只是每個 token 的費用,而是模型無法再清楚地看到你的問題。壓縮是一種選擇性注意力的形式,去除樣板,讓模型可以將有限的注意力用在有效訊號上。

為什麼 Token 效率成為基礎設施議題

一年前,「token 成本」是一個計費行項目。在 2026 年,它是代理設計的約束條件。三件事發生了改變。

成本、延遲和上下文浪費

定價數學並沒有急劇惡化——Anthropic 的官方 API 定價將 Sonnet 4.6 定為每百萬 token 輸入 $3 / 輸出 $15,完整 100 萬上下文視窗按標準費率計算。改變的是自主代理每個工作階段消耗多少 token。一個進行 50 次工具呼叫、帶有 1 萬個 token 系統提示的程式設計代理,如果忽略快取,光是那個系統提示就要付 50 萬個 token 的費用。

提示快取能緩解這個問題——快取讀取是基礎輸入價格的 0.1×,快取前綴可享 90% 折扣。但快取只對對話的靜態部分有幫助,對動態後綴無效:工具呼叫輸出、中間推理、生成的程式碼。那正是 RTK 的目標。快取和輸出壓縮是互補的,而非競爭的。

延遲遵循相同的規律。較小的有效負載傳輸和處理更快。對於按順序進行許多短暫工具呼叫的自主程式設計代理,rtk token 節省也會在實際時鐘改進上體現。

為什麼嘈雜的命令輸出會破壞代理可靠性

這是帳單上看不到的部分。當代理的上下文被 cargo test ok 行和冗長的 find 輸出擠滿時,兩種失敗模式變得更常見:

代理忘記了它五次工具呼叫前在做什麼。具體來說,原始使用者請求被推到上下文更後面,而模型的注意力漂移到最近(嘈雜的)工具輸出上。我曾看過一個 Claude Code 工作階段忘記使用者想要修復單一測試,反而開始重構測試相鄰的程式碼,因為在其上下文中最顯著的東西是最後 4K token 的 grep 傾印。

上下文溢出強迫工作階段重新開始。一旦達到上限,你要麼壓縮對話(失去精確度),要麼從頭開始(完全失去脈絡)。無論哪種方式,你都為失敗付出代價。

事實證明,瓶頸從來不是模型,而是 shell 和上下文之間的中間通道,攜帶的位元組遠超過模型能有效使用的量。

RTK AI 適合的場景和不適合的場景

當三個條件成立時,RTK 是正確的工具:你使用的代理在其迴圈中執行 shell 命令;你執行的命令在支援列表中(git、cargo、npm、pytest、go test、find、grep、ls、docker、kubectl 等約 100 個);以及你的工作流程受到 token 限制——無論是針對 API 帳單還是固定費率方案的配額。

以下情況則不適合使用 RTK:

  • 你的代理對大多數操作使用框架原生的檔案工具(Claude Code 的 Read、Grep、Glob)。RTK 鉤子只捕捉 Bash 工具呼叫,原生工具繞過它。專案 README 對此有明確說明——要過濾原生工具工作流程,你需要明確地呼叫 rtk read 或 rtk grep。
  • 你在沒有 WSL 的 Windows 上。RTK 會回退到 CLAUDE.md 注入模式,提供說明但不自動改寫。功能正常,但不透明。
  • 你的瓶頸不是工具呼叫雜訊。如果你的代理將大部分 token 花在長篇生成的程式碼或延伸推理上,壓縮 git status 只能節省個位數的百分比。安裝前先診斷。

我在網上不斷看到的 vibecoding 成本降低框架——「安裝這個,帳單減少 80%」——說對了一半。80% 適用於你上下文的 CLI 部分。如果你工作階段的 70% 是 CLI 輸出,你總體節省約 56%。如果是 30%,你節省約 24%。安裝前先在典型工作階段上執行 rtk discover。任何落地頁上的基準數字都是上限。

我在寫這篇文章時停頓了幾天,因為更廣泛的觀點並不真的是關於 RTK 本身。我們現在有一個新興類別——上下文層優化——在一年前還不是一個被認可的基礎設施層。RTK 是其中一種形態,提示快取是另一種,代理框架自動進行上下文摘要是第三種。它們都解決同一問題的不同方面:token 是新的頻寬,而工具和模型之間的通道需要與 HTTP 在 25 年前獲得的相同類型的壓縮層。

常見問題

以下是我在評估安裝是否值得時出現的問題。

RTK 實際上優化了什麼?

RTK 優化代理工具呼叫的輸出側——在 shell 命令返回的位元組流到達模型的上下文視窗之前。根據其文件,它使用四種策略:智慧過濾(去除注釋、樣板、提示文字)、分組(聚合相似項目)、截斷(保留骨架,修剪次要細節)以及結構化摘要(262 個通過測試 → 一行計數,失敗原文保留)。它不改變代理執行的命令,只改變它看到的返回結果。

Token 效率也有助於降低延遲嗎?

是的,但是間接的。較小的輸入處理更快——Anthropic 的提示快取文件報告在長快取提示上延遲減少高達 85%,同樣的邏輯適用於任何輸入側的縮減。對於快速進行工具呼叫序列的自主代理,累積效果是明顯的。對於模型主要在思考的單個長篇回應,收益較小。

哪些團隊最能從 RTK AI 這類工具中受益?

三種情況。高頻執行程式設計代理的團隊,其中 token 消耗是真實的費用項目。比預期更快達到速率限制的固定費率方案團隊——RTK 在不更改方案的情況下延長了實際配額。構建代理產品的團隊,每次工具呼叫都在他們自己的基礎設施帳單中。第四種情況——每週執行 AI 代理兩次的偶爾用戶——不會注意到差異。

什麼時候 token 優化不是主要瓶頸?

當你的代理因與上下文大小無關的原因而失敗時:糟糕的工具設計、錯誤的模型選擇、缺少說明、模糊的使用者意圖。優化 token 不能修復範圍界定不良的代理。如果你的工作負載主要由生成而非工具輸出讀取主導,它也沒有幫助。這是我的數據終止的地方——我只測量了 RTK 對以 CLI 為主的程式設計工作流程的影響。

結論

RTK AI 最快的總結:它是一個 CLI 代理,在 shell 命令輸出到達你的代理之前對其進行壓縮,聲稱在支援的命令上可減少 60–90% 的 token 用量。更慢但更有用的總結:它是一個有效的例子,說明為什麼 token 效率停止成為優化,轉而成為基礎設施層。上下文是有限的,帳單是真實的,當通道變得嘈雜時代理可靠性會下降。

RTK 是否特別屬於你的工作流程,取決於你的 token 實際流向哪裡。它所代表的類別——在代理和其工具輸出之間的壓縮和過濾——無論哪個特定的二進位檔案最終獲勝,都將變得重要。

在我對一個多週專案使用 RTK 並獲得詳細的前後對比數據後,還有更多內容待分享。Token 現在是基礎設施問題,而不是計費腳注。

往期文章: