GPT-5.3 Garlic 现已登陆WaveSpeedAI：关于OpenAI下一代模型的所有信息

关于OpenAI GPT-5.3”大蒜”的所有信息

OpenAI一直在GPT-5系列上快速迭代，在2025年8月推出旗舰GPT-5后，随之推出了GPT-5.1和GPT-5.2。现在，关于GPT-5.3的传言甚嚣尘上，该模型的内部代号是”大蒜”——这是一个代表从”越大越好”到”更聪明更密集”这一根本转变的模型。

状态和预期时间表

GPT-5.3仍未得到OpenAI官方宣布。下面的信息来自泄露的报告、行业分析和二手报道。在确认之前，请将所有规格视为推测性的。

预期时间表：

2026年1月末：选定合作伙伴的预览访问
2026年2月：全面API可用
2026年3月：免费层集成

据报道，该模型是在CEO萨姆·奥特曼(Sam Altman)于2025年12月宣布的内部”红色代码”中产生的，这表明OpenAI迫切希望保持对Anthropic的Claude Sonnet 5和Moonshot的Kimi K2.5等快速发展的竞争对手的竞争优势。

高密度哲学

GPT-5.3代表了OpenAI如何处理模型开发的范式转变。“大蒜”不是追求越来越大的参数数量，而是专注于认知密度——在更小、更快的架构中打包更多的推理能力。

增强的预训练效率(EPTE)

核心创新是增强的预训练效率，与传统缩放方法相比，实现了约6倍的知识密度提升：

智能修剪：在训练过程中，模型学会丢弃冗余的神经路径
压缩知识：信息被积极地压缩，导致物理上更小的系统
精选数据：训练专注于经过验证的科学论文、高级代码库和来自先前推理模型的合成数据

据报道，这种方法能够在一个比GPT-5.2更快、更便宜的模型中实现”GPT-6级别”的推理。

架构创新

双分支开发

GPT-5.3合并了两条内部研究轨道：

Shallotpeat：OpenAI以效率为中心的研究分支
大蒜分支：实验性压缩和密度技术

这个组合产生了一个为能力和实际部署而优化的模型。

自动路由系统

最有趣的架构特性之一是内部自动路由：

反射模式：简单查询触发闪电般快速的响应路径
深度推理：复杂问题自动触发扩展推理令牌
动态资源分配：根据任务复杂性分配计算资源

这种智能路由意味着用户不必为他们不需要的推理支付(时间或成本)，而复杂的任务仍然会获得充分的计算注意力。

上下文和输出规格

400K令牌上下文窗口

为了与Google的百万令牌Gemini上下文竞争，据报道GPT-5.3配备了400,000令牌的上下文窗口。虽然小于Gemini的提供，但关键的区别是”完美回忆”：

新的注意力机制防止”上下文中间”损失
在整个上下文范围内的一致性能
对于位于文档中间的信息没有衰减

这解决了2025年代模型的一个常见弱点，即位于长上下文中间的信息经常被遗漏或遗忘。

128K令牌输出限制

对于开发人员来说，传言中的128,000令牌输出限制可能更重要——这是一个巨大的扩展，能够实现：

单次生成完整的软件库
综合法律摘要和文档
完整长度的技术规格
无需分块的多文件代码生成

对于代理代码工作流，这种输出容量可能会消除迭代生成的需要。

基准性能

内部测试据报道在关键基准上显示了强劲的结果：

基准	GPT-5.3	Gemini 3	Claude Opus 4.5
HumanEval+	94.2%	89.1%	91.5%
GDP-Val	70.9%	-	-

如果这些数字成立，GPT-5.3将为编码基准设定新的最先进水平，超越Google和Anthropic的旗舰产品。

原生代理能力

GPT-5.3将代理操作视为一流的功能，而不是附加功能：

内置工具使用

API调用、代码执行和数据库查询是原生操作
多步骤任务不需要外部编排
自定向文件导航和编辑
自动单元测试生成和执行

减少幻觉

后训练强化专注于”认识论的谦逊”：

模型被训练来识别知识缺陷
当信息未知时明确的不确定性
减少事实查询中的虚假信息

这解决了大型语言模型的一个持久挑战——自信但不正确的回应。

定价策略

虽然官方定价仍未宣布，但泄露的信息表明了激进的定位：

指标	GPT-5.3 vs Claude Opus 4.5
速度	快2倍
成本	0.5倍(便宜50%)

如果准确的话，这将使GPT-5.3对目前依赖Claude进行编码任务的企业部署非常有竞争力。

竞争格局

vs. Claude Sonnet 5

方面	GPT-5.3(传言)	Claude Sonnet 5
上下文	400K	1M
输出限制	128K	标准
SWE-Bench	未知	82.1%
HumanEval+	94.2%	未知
定价	~$1.50/$7.50(估计)	$3/$15

Claude Sonnet 5提供更大的上下文，而GPT-5.3专注于输出容量和原始编码性能。

vs. Kimi K2.5

方面	GPT-5.3(传言)	Kimi K2.5
上下文	400K	256K
开源	否	是(MIT)
代理系统	原生	代理群(100个代理)
HumanEval+	94.2%	~85%
定价	未知	$0.60/$2.50

Kimi K2.5提供开源可用性和多代理并行化，而GPT-5.3强调单一模型能力和效率。

vs. DeepSeek V4

DeepSeek V4预计在2026年2月中旬推出，将提供开放权重部署和1M+上下文窗口。GPT-5.3的优势在于：

经过验证的OpenAI基础设施和可靠性
原生代理能力
企业支持和合规性

这对开发人员意味着什么

如果传言被证实，GPT-5.3代表了几个重要的转变：

效率优于规模：高密度方法可能会影响其他实验室如何处理模型开发
输出扩展：128K输出令牌支持新的应用模式
成本压力：2倍速度，0.5倍成本对竞争对手施加压力
原生代理：一流的代理操作减少了集成的复杂性

注意事项和不确定性

关于此信息的重要免责声明：

未正式宣布：OpenAI尚未确认GPT-5.3、“大蒜”代号或任何规格
基准验证：报告的基准来自泄露，而不是独立测试
时间不确定性：发布日期是基于模式的推测，而不是公告
功能变化：最终模型可能与泄露的规格有很大差异

展望未来

GPT-5.3”大蒜”代表了OpenAI对Anthropic、Google和开源替代品日益激烈竞争的回应。对效率而非原始规模的关注可能表明行业的新方向——一个更聪明的训练比更大的模型更重要的方向。

泄露的规格是否准确将在未来几周内变得清楚。目前，GPT-5.3仍然是2026年初最期待的发布之一。