Kimi K2.5现已登陆WaveSpeedAI:Moonshot视觉智能体模型完全解析
月光崖AI已成为开源AI领域的主要力量,他们的最新发布代表了迄今为止最雄心勃勃的模型。Kimi K2.5于2026年1月27日推出,引入了突破性的Agent Swarm技术和原生多模态能力,甚至挑战闭源前沿模型。
发布和可用性
Kimi K2.5于2026年1月27日正式以MIT许可证的开源模型身份发布。这使其成为最具开放性的万亿参数模型之一,支持研究和商业用途,不受任何限制。
该模型可通过多种渠道获得:
- Kimi.com: 基于浏览器的聊天界面
- Kimi应用: iOS和Android移动应用
- moonshot.ai API: 开发者API访问
- Kimi Code CLI: 基于终端的编码助手
- Hugging Face: 完整模型权重,支持自托管
- NVIDIA NIM: 优化推理部署
架构规范
Kimi K2.5采用精妙的混合专家(MoE)架构:
| 规范 | 数值 |
|---|---|
| 总参数 | 1万亿 |
| 活跃参数 | 320亿 |
| 层数 | 61(包括1个密集层) |
| 注意力头 | 64 |
| 专家 | 384个总计(每个token选择8个,1个共享) |
| 词汇表 | 160K个token |
| 上下文窗口 | 256K个token |
| 注意力机制 | MLA(多头潜在注意力) |
| 视觉编码器 | MoonViT(4亿参数) |
384个专家的配置明显比DeepSeek-V3的256个专家多50%,通过稀疏激活实现更细粒度的专业化,同时保持高效推理。
训练
Kimi K2.5在约15万亿个混合视觉和文本token上进行训练,创造了真正原生的多模态架构。与将视觉功能添加到纯文本基础模型不同,K2.5的联合预训练实现了视觉和文本理解的无缝集成。
视觉特征通过时空池化压缩,然后投影到语言模型中,允许高效处理图像和视频,而不会产生过度的token开销。
基准性能
Kimi K2.5在多个领域展现了强劲性能:
推理基准
| 基准 | 分数 |
|---|---|
| AIME 2025 | 96.1% |
| HMMT 2025 | 95.4% |
| GPQA-Diamond | 87.6% |
视觉基准
| 基准 | 分数 |
|---|---|
| OCRBench | 92.3% |
| MathVista | 90.1% |
| OmniDocBench 1.5 | 88.8% |
编码基准
| 基准 | Kimi K2.5 | Claude Opus 4.5 |
|---|---|---|
| SWE-Bench Verified | 76.8% | 80.9% |
| LiveCodeBench | 85.0% | 64.0% |
| TerminalBench | 领先 | 第二 |
虽然Claude Opus 4.5在SWE-Bench Verified上保持微弱优势(80.9% vs 76.8%),但Kimi K2.5在LiveCodeBench上显著超越(85.0% vs 64.0%),展现了更强的实时交互编码能力。
定价
Kimi K2.5提供积极的定价,低于大多数前沿模型:
| 模型 | 输入(每100万token) | 输出(每100万token) |
|---|---|---|
| Kimi K2.5 | $0.60 | $2.50-$3.00 |
| Claude Opus 4.5 | $15.00 | $75.00 |
| Claude Sonnet 5 | $3.00 | $15.00 |
比Claude Opus 4.5便宜约9倍,比Claude Sonnet 5便宜5倍,Kimi K2.5为大量工作负载提供了极具吸引力的价值。
Agent Swarm技术
Kimi K2.5最创新的功能是其Agent Swarm系统——平行AI执行的突破。
Agent Swarm如何运作
Agent Swarm支持多达100个子代理的自主群体执行并行工作流,可处理多达1,500个工具调用:
- 编排器: 可训练的编排器动态创建专门的子代理
- 任务分解: 复杂任务被分解为可并行化的工作单元
- 并行执行: 多个代理同时处理不同组件
- 协调: 结果被综合回成一致的输出
训练创新
该系统使用并行代理强化学习(PARL)与分阶段奖励塑形,以防止”串行坍缩”——代理倾向于默认为单代理顺序执行的现象。这种训练方法鼓励真正的并行化。
性能提升
与顺序单代理方法相比,Agent Swarm可实现高达4.5倍的执行时间减少。对于大规模编码项目,这意味着显著更快的完成时间。
该系统使用受并行计算关键路径分析启发的”关键步骤”测量来优化执行策略。
操作模式
Kimi K2.5支持四种不同的操作模式:
- K2.5 Instant: 禁用思考的快速响应(温度0.6)
- K2.5 Thinking: 启用链式思考的扩展推理(温度1.0,top-p 0.95)
- K2.5 Agent: 单代理自主任务执行
- K2.5 Agent Swarm (测试版): 多代理并行工作流
每种模式都可通过API参数配置,允许开发者为特定用例平衡速度、深度和能力。
主要能力
视觉代理智能
Kimi K2.5擅长结合视觉理解和代码生成的视觉基础任务:
- 视频到代码生成: 将视频演示转换为工作代码
- 网站重建: 从截图重建网站
- 视觉调试: 从截图识别和修复UI问题
- 空间推理: 解决视觉谜题并理解布局
前端开发
该模型在前端开发中表现出特别的优势:
- 使用滚动触发动画的交互式布局实现
- 从视觉描述生成复杂CSS和JavaScript
- 跨设备尺寸的响应式设计实现
- 丰富的动画和过渡效果
办公生产力
K2.5 Agent通过多步工具协调处理企业工作流:
- 生成文档、电子表格、PDF和演示文稿
- 处理10,000字的论文或100页的文档
- 使用工具链协调多步工作流
- 在AI办公基准上比K2 Thinking提升59.3%
- 在通用代理基准上提升24.3%
Kimi Code CLI
随同K2.5发布,Moonshot推出了Kimi Code——一个与流行编辑器集成的基于终端的编码助手:
- VSCode: 完整扩展支持
- Cursor: 原生集成
- Zed: 插件可用
Kimi Code由K2.5的代理能力驱动,提供类似Claude Code的终端工作流,使开发者能够直接从开发环境中利用Agent Swarm。
部署选项
自托管
通过MIT许可证和完整权重可用性,组织可以在自己的基础设施上部署K2.5:
- 推荐引擎: vLLM、SGLang、KTransformers
- 要求: transformers ≥4.57.1
- 硬件: 从消费级GPU(量化)到数据中心部署可扩展
云部署
- NVIDIA NIM: 针对企业部署的优化容器
- Hugging Face推理: 托管端点
- 主要云提供商: 可通过标准推理API获得
与竞争对手的比较
vs. Claude Opus 4.5
| 方面 | Kimi K2.5 | Claude Opus 4.5 |
|---|---|---|
| SWE-Bench | 76.8% | 80.9% |
| LiveCodeBench | 85.0% | 64.0% |
| 定价 | $0.60/$2.50 | $15/$75 |
| 开源 | 是(MIT) | 否 |
| 上下文 | 256K | 200K |
| Agent Swarm | 是(100个代理) | 否 |
Claude Opus 4.5在传统代码修复基准上领先,而Kimi K2.5在交互式编码上表现出色,并以开源可用性提供显著更好的定价。
vs. DeepSeek V3
两个模型共享MoE架构哲学,但K2.5带来了:
- 原生多模态能力(DeepSeek V3仅文本)
- 用于并行执行的Agent Swarm
- 384个专家 vs DeepSeek的256个
- 视觉基础编码能力
vs. Claude Sonnet 5
| 方面 | Kimi K2.5 | Claude Sonnet 5 |
|---|---|---|
| 定价 | $0.60/$2.50 | $3/$15 |
| 上下文 | 256K | 1M |
| 开源 | 是 | 否 |
| Agent Swarm | 是 | 开发团队模式 |
Sonnet 5提供更大的上下文和类似的代理功能,但K2.5的开源特性和更低的定价使其对成本敏感的部署具有吸引力。
这对开发者意味着什么
Kimi K2.5代表了开源AI的重要里程碑:
- 真正的开源前沿: MIT许可的万亿参数模型
- 成本效益: 比可比闭源选项便宜9倍
- 并行执行: Agent Swarm实现了前所未有的任务并行化
- 多模态原生: 从预训练开始的视觉和文本统一
- 自托管: 企业需求的完整部署灵活性
对于需要本地部署、隔离环境或只是想避免API锁定的组织,Kimi K2.5提供了以前只能通过闭源提供商获得的能力。
展望未来
Moonshot AI已经确立自己为AI领域的强大竞争对手。凭借Agent Swarm技术和原生多模态能力,Kimi K2.5推动了开源模型能够实现的边界。
前进的关键问题:
- Agent Swarm的并行执行范例是否会影响其他实验室如何处理代理AI?
- K2.5的视觉编码能力能否转化为前端开发中更广泛的采用?
- 价格压力如何影响闭源提供商?
目前,Kimi K2.5堪称最强大的开源模型——对许多用例来说是闭源前沿模型的真正替代品。





