Kimi K2.5:關於月之暗面視覺智能體模型的一切
月幕大模型已成為開源AI領域的主要力量,他們最新發布的模型代表了迄今為止最雄心勃勃的嘗試。Kimi K2.5於2026年1月27日推出,引入了突破性的Agent Swarm技術和原生多模態功能,甚至挑戰了閉源前沿模型。
發布與可用性
Kimi K2.5於2026年1月27日正式推出,作為MIT許可下的開源模型。這使其成為最寬鬆的兆參數模型之一,無需限制即可用於研究和商業用途。
該模型可通過多個管道獲得:
- Kimi.com:基於瀏覽器的聊天界面
- Kimi App:iOS和Android移動應用
- moonshot.ai API:開發者API訪問
- Kimi Code CLI:終端編碼助手
- Hugging Face:完整模型權重用於自託管
- NVIDIA NIM:優化推理部署
架構規格
Kimi K2.5採用複雜的專家混合(MoE)架構:
| 規格 | 數值 |
|---|---|
| 總參數 | 1兆 |
| 活躍參數 | 320億 |
| 層數 | 61(包括1個密集層) |
| 注意力頭 | 64 |
| 專家 | 384個(每個令牌選擇8個,1個共享) |
| 詞彙表 | 160K令牌 |
| 上下文窗口 | 256K令牌 |
| 注意力機制 | MLA(多頭潛在注意力) |
| 視覺編碼器 | MoonViT(4億參數) |
384專家配置明顯比DeepSeek-V3的256專家多50%,通過稀疏激活實現更精細的專業化,同時保持高效推理。
訓練
Kimi K2.5在大約15兆個混合視覺和文本令牌上進行了訓練,創造了真正的原生多模態架構。與將視覺功能附加到僅限文本的基礎模型不同,K2.5的聯合預訓練實現了視覺和文本理解的無縫整合。
視覺特徵通過時空池化進行壓縮,然後投影到語言模型中,允許有效處理圖像和視頻,不會產生過多的令牌開銷。
基準性能
Kimi K2.5在多個領域展示了強大的性能:
推理基準
| 基準 | 分數 |
|---|---|
| AIME 2025 | 96.1% |
| HMMT 2025 | 95.4% |
| GPQA-Diamond | 87.6% |
視覺基準
| 基準 | 分數 |
|---|---|
| OCRBench | 92.3% |
| MathVista | 90.1% |
| OmniDocBench 1.5 | 88.8% |
編碼基準
| 基準 | Kimi K2.5 | Claude Opus 4.5 |
|---|---|---|
| SWE-Bench Verified | 76.8% | 80.9% |
| LiveCodeBench | 85.0% | 64.0% |
| TerminalBench | 領先 | 第二 |
雖然Claude Opus 4.5在SWE-Bench Verified上略佔優勢(80.9% vs 76.8%),但Kimi K2.5在LiveCodeBench上的表現遠優於對手(85.0% vs 64.0%),展示了更強的實時互動編碼能力。
定價
Kimi K2.5提供了比大多數前沿模型都更低廉的定價:
| 模型 | 輸入(每100萬令牌) | 輸出(每100萬令牌) |
|---|---|---|
| Kimi K2.5 | $0.60 | $2.50-$3.00 |
| Claude Opus 4.5 | $15.00 | $75.00 |
| Claude Sonnet 5 | $3.00 | $15.00 |
價格約為Claude Opus 4.5的1/9,Claude Sonnet 5的1/5,Kimi K2.5為大容量工作負載提供了令人信服的價值。
Agent Swarm技術
Kimi K2.5最創新的功能是其Agent Swarm系統——平行AI執行的突破。
Agent Swarm如何運作
Agent Swarm使多達100個子代理能夠執行平行工作流,進行多達1,500次工具調用:
- 協調器:可訓練的協調器動態創建專門化的子代理
- 任務分解:複雜的任務被分解為可並行化的工作單位
- 平行執行:多個代理同時在不同組件上工作
- 協調:結果被合成為連貫的輸出
訓練創新
該系統使用並行代理強化學習(PARL)和分階段獎勵塑形,以防止”串行坍塌”——代理傾向於默認為單代理順序執行的傾向。這種訓練方法鼓勵真正的並行化。
性能提升
與順序單代理方法相比,Agent Swarm可實現高達4.5倍的執行時間減少。對於大規模編碼項目,這意味著大幅加快完成時間。
該系統使用受並行計算關鍵路徑分析啟發的”關鍵步驟”度量來優化執行策略。
操作模式
Kimi K2.5支持四種不同的操作模式:
- K2.5 Instant:禁用思考的快速回應(溫度0.6)
- K2.5 Thinking:帶有思維鏈的延展推理(溫度1.0,top-p 0.95)
- K2.5 Agent:單代理自主任務執行
- K2.5 Agent Swarm(測試版):多代理平行工作流
每種模式都可以通過API參數進行配置,允許開發者為特定用例平衡速度、深度和功能。
主要功能
視覺代理智能
Kimi K2.5在結合視覺理解與代碼生成的視覺基礎任務中表現出色:
- 視頻轉代碼生成:將視頻演示轉換為工作代碼
- 網站重建:從截圖重新創建網站
- 視覺調試:從截圖識別並修復UI問題
- 空間推理:解決視覺謎題並理解佈局
前端開發
該模型在前端開發中表現出特別的優勢:
- 使用滾動觸發動畫實現互動佈局
- 從視覺描述生成複雜CSS和JavaScript
- 跨設備大小實現響應式設計
- 豐富的動畫和過渡效果
辦公生產力
K2.5 Agent通過多步驟工具協調處理企業工作流:
- 生成文檔、電子表格、PDF和演示文稿
- 處理10,000字的論文或100頁的文檔
- 協調帶有工具鏈的多步驟工作流
- 在AI Office基準上比K2 Thinking提升59.3%
- 在通用Agent基準上提升24.3%
Kimi Code CLI
除K2.5外,月幕還發布了Kimi Code——一款終端編碼助手,與流行編輯器集成:
- VSCode:完整擴展支持
- Cursor:原生集成
- Zed:插件可用
Kimi Code由K2.5的代理功能驅動,提供類似Claude Code的終端工作流,使開發者能夠直接從開發環境中利用Agent Swarm。
部署選項
自託管
使用MIT許可和完整權重可用性,組織可以在自己的基礎設施上部署K2.5:
- 推薦引擎:vLLM、SGLang、KTransformers
- 要求:transformers ≥4.57.1
- 硬件:從消費級GPU(量化)到數據中心部署
雲部署
- NVIDIA NIM:為企業部署優化的容器
- Hugging Face Inference:管理的端點
- 主要雲提供商:可通過標準推理API獲得
與競爭對手的比較
vs. Claude Opus 4.5
| 方面 | Kimi K2.5 | Claude Opus 4.5 |
|---|---|---|
| SWE-Bench | 76.8% | 80.9% |
| LiveCodeBench | 85.0% | 64.0% |
| 定價 | $0.60/$2.50 | $15/$75 |
| 開源 | 是(MIT) | 否 |
| 上下文 | 256K | 200K |
| Agent Swarm | 是(100代理) | 否 |
Claude Opus 4.5在傳統代碼修復基準上領先,而Kimi K2.5在互動編碼中表現出色,且以開源可用性提供了顯著更低的定價。
vs. DeepSeek V3
兩個模型都遵循MoE架構理念,但K2.5帶來了:
- 原生多模態功能(DeepSeek V3僅限文本)
- Agent Swarm用於平行執行
- 384個專家vs DeepSeek的256個
- 視覺基礎編碼功能
vs. Claude Sonnet 5
| 方面 | Kimi K2.5 | Claude Sonnet 5 |
|---|---|---|
| 定價 | $0.60/$2.50 | $3/$15 |
| 上下文 | 256K | 1M |
| 開源 | 是 | 否 |
| Agent Swarm | 是 | Dev Team模式 |
Sonnet 5提供更大的上下文和類似的代理功能,但K2.5的開源性質和更低的定價使其對成本敏感型部署更具吸引力。
這對開發者意味著什麼
Kimi K2.5代表了開源AI的重要里程碑:
- 真正的開源前沿:MIT許可的兆參數模型
- 成本效率:比可比的閉源選項便宜9倍
- 平行執行:Agent Swarm實現了前所未有的任務並行化
- 原生多模態:視覺和文本從預訓練統一
- 自託管:為企業要求提供完整的部署靈活性
對於需要本地部署、隔離環境或只是想避免API鎖定的組織,Kimi K2.5提供了以前只能通過閉源提供商獲得的功能。
展望未來
月幕在AI領域已確立自己為強勁的競爭者。憑藉Agent Swarm技術和原生多模態功能,Kimi K2.5推動了開源模型能夠實現的邊界。
未來的關鍵問題:
- Agent Swarm的平行執行範式是否會影響其他實驗室如何處理代理AI?
- K2.5的視覺編碼功能能否轉化為前端開發領域的更廣泛採用?
- 定價壓力將如何影響閉源提供商?
目前,Kimi K2.5是可用的最強大的開源模型——對許多用例來說,是閉源前沿模型的真正替代品。





