GPT-5.3 Garlic 现已登陆WaveSpeedAI:关于OpenAI下一代模型的所有信息
关于OpenAI GPT-5.3”大蒜”的所有信息
OpenAI一直在GPT-5系列上快速迭代,在2025年8月推出旗舰GPT-5后,随之推出了GPT-5.1和GPT-5.2。现在,关于GPT-5.3的传言甚嚣尘上,该模型的内部代号是”大蒜”——这是一个代表从”越大越好”到”更聪明更密集”这一根本转变的模型。
状态和预期时间表
GPT-5.3仍未得到OpenAI官方宣布。下面的信息来自泄露的报告、行业分析和二手报道。在确认之前,请将所有规格视为推测性的。
预期时间表:
- 2026年1月末:选定合作伙伴的预览访问
- 2026年2月:全面API可用
- 2026年3月:免费层集成
据报道,该模型是在CEO萨姆·奥特曼(Sam Altman)于2025年12月宣布的内部”红色代码”中产生的,这表明OpenAI迫切希望保持对Anthropic的Claude Sonnet 5和Moonshot的Kimi K2.5等快速发展的竞争对手的竞争优势。
高密度哲学
GPT-5.3代表了OpenAI如何处理模型开发的范式转变。“大蒜”不是追求越来越大的参数数量,而是专注于认知密度——在更小、更快的架构中打包更多的推理能力。
增强的预训练效率(EPTE)
核心创新是增强的预训练效率,与传统缩放方法相比,实现了约6倍的知识密度提升:
- 智能修剪:在训练过程中,模型学会丢弃冗余的神经路径
- 压缩知识:信息被积极地压缩,导致物理上更小的系统
- 精选数据:训练专注于经过验证的科学论文、高级代码库和来自先前推理模型的合成数据
据报道,这种方法能够在一个比GPT-5.2更快、更便宜的模型中实现”GPT-6级别”的推理。
架构创新
双分支开发
GPT-5.3合并了两条内部研究轨道:
- Shallotpeat:OpenAI以效率为中心的研究分支
- 大蒜分支:实验性压缩和密度技术
这个组合产生了一个为能力和实际部署而优化的模型。
自动路由系统
最有趣的架构特性之一是内部自动路由:
- 反射模式:简单查询触发闪电般快速的响应路径
- 深度推理:复杂问题自动触发扩展推理令牌
- 动态资源分配:根据任务复杂性分配计算资源
这种智能路由意味着用户不必为他们不需要的推理支付(时间或成本),而复杂的任务仍然会获得充分的计算注意力。
上下文和输出规格
400K令牌上下文窗口
为了与Google的百万令牌Gemini上下文竞争,据报道GPT-5.3配备了400,000令牌的上下文窗口。虽然小于Gemini的提供,但关键的区别是”完美回忆”:
- 新的注意力机制防止”上下文中间”损失
- 在整个上下文范围内的一致性能
- 对于位于文档中间的信息没有衰减
这解决了2025年代模型的一个常见弱点,即位于长上下文中间的信息经常被遗漏或遗忘。
128K令牌输出限制
对于开发人员来说,传言中的128,000令牌输出限制可能更重要——这是一个巨大的扩展,能够实现:
- 单次生成完整的软件库
- 综合法律摘要和文档
- 完整长度的技术规格
- 无需分块的多文件代码生成
对于代理代码工作流,这种输出容量可能会消除迭代生成的需要。
基准性能
内部测试据报道在关键基准上显示了强劲的结果:
| 基准 | GPT-5.3 | Gemini 3 | Claude Opus 4.5 |
|---|---|---|---|
| HumanEval+ | 94.2% | 89.1% | 91.5% |
| GDP-Val | 70.9% | - | - |
如果这些数字成立,GPT-5.3将为编码基准设定新的最先进水平,超越Google和Anthropic的旗舰产品。
原生代理能力
GPT-5.3将代理操作视为一流的功能,而不是附加功能:
内置工具使用
- API调用、代码执行和数据库查询是原生操作
- 多步骤任务不需要外部编排
- 自定向文件导航和编辑
- 自动单元测试生成和执行
减少幻觉
后训练强化专注于”认识论的谦逊”:
- 模型被训练来识别知识缺陷
- 当信息未知时明确的不确定性
- 减少事实查询中的虚假信息
这解决了大型语言模型的一个持久挑战——自信但不正确的回应。
定价策略
虽然官方定价仍未宣布,但泄露的信息表明了激进的定位:
| 指标 | GPT-5.3 vs Claude Opus 4.5 |
|---|---|
| 速度 | 快2倍 |
| 成本 | 0.5倍(便宜50%) |
如果准确的话,这将使GPT-5.3对目前依赖Claude进行编码任务的企业部署非常有竞争力。
竞争格局
vs. Claude Sonnet 5
| 方面 | GPT-5.3(传言) | Claude Sonnet 5 |
|---|---|---|
| 上下文 | 400K | 1M |
| 输出限制 | 128K | 标准 |
| SWE-Bench | 未知 | 82.1% |
| HumanEval+ | 94.2% | 未知 |
| 定价 | ~$1.50/$7.50(估计) | $3/$15 |
Claude Sonnet 5提供更大的上下文,而GPT-5.3专注于输出容量和原始编码性能。
vs. Kimi K2.5
| 方面 | GPT-5.3(传言) | Kimi K2.5 |
|---|---|---|
| 上下文 | 400K | 256K |
| 开源 | 否 | 是(MIT) |
| 代理系统 | 原生 | 代理群(100个代理) |
| HumanEval+ | 94.2% | ~85% |
| 定价 | 未知 | $0.60/$2.50 |
Kimi K2.5提供开源可用性和多代理并行化,而GPT-5.3强调单一模型能力和效率。
vs. DeepSeek V4
DeepSeek V4预计在2026年2月中旬推出,将提供开放权重部署和1M+上下文窗口。GPT-5.3的优势在于:
- 经过验证的OpenAI基础设施和可靠性
- 原生代理能力
- 企业支持和合规性
这对开发人员意味着什么
如果传言被证实,GPT-5.3代表了几个重要的转变:
- 效率优于规模:高密度方法可能会影响其他实验室如何处理模型开发
- 输出扩展:128K输出令牌支持新的应用模式
- 成本压力:2倍速度,0.5倍成本对竞争对手施加压力
- 原生代理:一流的代理操作减少了集成的复杂性
注意事项和不确定性
关于此信息的重要免责声明:
- 未正式宣布:OpenAI尚未确认GPT-5.3、“大蒜”代号或任何规格
- 基准验证:报告的基准来自泄露,而不是独立测试
- 时间不确定性:发布日期是基于模式的推测,而不是公告
- 功能变化:最终模型可能与泄露的规格有很大差异
展望未来
GPT-5.3”大蒜”代表了OpenAI对Anthropic、Google和开源替代品日益激烈竞争的回应。对效率而非原始规模的关注可能表明行业的新方向——一个更聪明的训练比更大的模型更重要的方向。
泄露的规格是否准确将在未来几周内变得清楚。目前,GPT-5.3仍然是2026年初最期待的发布之一。





