GPT-5.4 与 GPT-5.3:可能真正改变的是什么
GPT-5.4 泄露信号暗示推理速度更快、视觉功能升级。以下是它对开发者而言可能与 GPT-5.3 有何不同。
嗨,我是 Dora。我发现自己一直在盯着一个长时间运行的 agent 循环。没什么戏剧性的事,就是那种缓慢、焦躁的感觉——模型不停地要求再调用一次工具,然后又一次。这让我想起,我的工作日有多少时间耗在这些边边角角上:那些停顿、重试,还有”它到底有没有读那份文档?“的瞬间。
于是我花了一个下午重新翻阅了关于 GPT-5.3 的笔记,又粗略浏览了早期 GPT-5.4 的一些讨论。关于模型架构和延迟方面的早期泄露讨论,在这篇 GPT-5.4 泄露 分析中有所汇总。这不是为了追逐下一个大事件,更多是为了回答一个小问题:这些变化能减少工作流中那些令人烦躁的部分吗?这是我关于 GPT 5.4 vs GPT 5.3 的持续记录,包含我实测的数据、我认为可信的内容,以及我仍持保留态度的地方。
GPT-5.3 能力:当前基线
推理与工具调用性能
自 2026 年 1 月中旬以来,我一直在将 GPT-5.3 用于三项固定工作:汇总产品研究、分类处理支持工单,以及搭建小型脚本框架。简而言之:如果我给它一个清晰的结构,它能很好地处理多步推理。 当我明确了角色、状态和终止条件后,它会一路跟下去,不会跑偏。
在工具调用方面,函数调用一直很稳定。我依赖 OpenAI 的函数调用模式和标准工具 schema,没有什么意外。使用定义清晰的工具(搜索、检索、简单的向量查找)时,5.3 的调用保持整洁。在一次处理 20 封邮件的分类任务中,它平均每个线程调用 1.7 次工具,低于我旧版配置的 2.4 次。这消除了那些小的”现在怎么办?“停顿。但有个问题:如果我的工具描述模糊,它就会试图用更多调用来弥补。
我最明显感受到的是它对不完整上下文的容忍度。如果我只传入相关片段和简短的状态摘要,它仍然能正常推理。但如果我塞入大量松散相关的笔记,它就开始含糊其辞。
编程与 agent 工作流支持
在代码方面,5.3 在中小型重构上表现稳定。它擅长生成带有清晰说明的 diff,并且如果我预先提供简短的风格指南,它能保持一致的代码风格。它的薄弱之处在于需要紧密依赖关系感知的跨文件修改。我通常会切换到两遍处理模式:第一遍让它列出编辑计划,第二遍逐文件应用。这样可以防止它过于自信地修改不该动的地方。
在 agent 工作流中,当我限制递归深度并记录每个决策时,5.3 表现最佳。我确定了一个三步循环:计划 → 调用工具 → 反思。超过这个步数,它就开始啰嗦。我还会提示它以紧凑的 JSON 格式输出状态,这能减少解析错误。这些都不是什么魔法,只是让循环少一些”黏人”的护栏。
已知局限
- 当我将系统规则与长用户任务混在一起时,它有时会重复处理指令:我已经学会在提示末尾重申关键约束。
- 它有时会坚持重新总结我已经总结过的内容,白白消耗 token 和时间。
- 在视觉任务(截图、UI 原型)上,它在标注和描述方面还可以,但会漏掉小字和精细的布局逻辑。它把开关误认为按钮的情况不止一次。
- 在 token 紧张的情况下,它倾向于给出安全的泛泛之词,而不是精确的边界分析。我在评估错误日志时看到这一点:它会列出可能的原因,但不愿在没有更多上下文的情况下明确表态。
这就是我对 5.3 的实际印象:明确时可靠,模糊时略显焦虑。

GPT-5.4 信号所显示的变化
截至 2026 年 3 月 5 日,我还没有直接访问过 5.4。以下内容来自早期泄露帖子、私人论坛中一些可信开发者的注释,以及我在模型系列逐步迭代时学会关注的规律。我会对每个观点标注:可观测的、基于泄露的,或推测性的。
推理速度与快速模式的影响
基于泄露:多个来源提到了用于短形式推理的”快速模式”或低延迟层级。如果属实,这对原始吞吐量的意义不如对 agent 节奏的意义大。首 token 延迟降低 20–30% 会让循环的感觉从笨重变为流畅。对比 GPT-5 与 DeepSeek、GLM 等模型的基准测试,可以看出延迟和成本对开发者工作流的实际影响有多大。在我的 5.3 配置中,普通提示的首 token 延迟在 600–900 毫秒左右:即便削减 150–200 毫秒,也能让工具链少一些走走停停的感觉。我预期这个快速模式会以牺牲部分深度为代价,适用于路由、分类,或在进行更深层处理前的快速验证。
可观测的:如果 5.4 真的添加了速度分层,我可能会拆分工作流:快速分类 → 路由 → 深度处理。这已经是一种常见模式,速度提升只会让它更流畅。
视觉输入处理改进
基于泄露:更好的小字 OCR 和更稳定的布局推理。线索指向对低对比度 UI 文字的识别改进以及更精细的边界框逻辑。如果属实,这将解决我在 5.3 上的两个摩擦点:截图中的小字和 UI 控件的区分。
可观测的:这将省去我在验证界面线框图时来回确认的麻烦。现在,当 5.3 处理不了时,我会把截图单独跑一遍 OCR。如果 5.4 减少了这些绕路,我可以从工具链中移除一个工具。
潜在的上下文窗口扩展
推测性的:可用上下文略有增加,或在长提示中保持更好的记忆。我指的不是头条数字,而是长对话后半段的实际召回能力。如果 5.4 能更稳定地保持任务约束而不需要我反复重申,就会改变我组织状态的方式。更少的提醒,更少的 token 消耗。如果只是原始窗口增大而没有更好的召回,好处会小得多。
等我看到长时间运行中”重新解读”的情况减少,我才会相信这一点。在此之前,我持谨慎态度。

对比表格
我更喜欢将我实测的内容与我只是听说的内容分开。以下是三个简短的表格,视角保持一致。
已确认的能力
| 领域 | GPT-5.3 | GPT-5.4 |
|---|---|---|
| 工具调用 / 函数调用 | 使用清晰 schema 时稳定:我的运行中每个任务典型 1–3 次调用 | 未确认 |
| token 压力下的推理 | 退化为泛泛之词:受益于重申约束 | 未确认 |
| 视觉(UI 截图) | 遗漏小字:混淆部分控件 | 未确认 |
| Agent 循环行为 | 在 2–3 步循环和明确停止条件下表现最佳 | 未确认 |
| 跨文件编程 | 安全起见需要两遍策略:diff 说明良好 | 未确认 |
参考资料:我遵循 OpenAI 函数调用文档和 API 参考中的工具定义模式。如果你感兴趣,官方文档是很好的参考基础:OpenAI API:函数调用 和工具使用。
基于泄露的信号
| 领域 | GPT-5.3 | GPT-5.4(基于泄露) |
|---|---|---|
| 推理速度分层 | 仅标准模式 | 添加更快、更轻量的低延迟响应层级 |
| 视觉 OCR | 足够用,但对小字/低对比度文字有困难 | 改进小字识别精度和布局处理 |
| 每 token 成本 | 当前公布价格 | 快速层级略有降低(未经证实) |
来源质量:参差不齐。部分细节与过往版本的规律吻合,但均未经确认。
推测性改进
| 领域 | GPT-5.3 | GPT-5.4(推测性) |
|---|---|---|
| 上下文保持 | 需要频繁重申约束 | 以更少的重申保持更长时间的约束 |
| 工具调用效率 | schema 模糊时有时过度调用 | 对相似提示有更好的调用节制 |
| 长期规划 | 超过 3–4 步后犹豫不决 | 多步规划略微更稳定 |

这些变化对开发者意味着什么
对 agent 循环设计的影响
如果”快速模式”存在,我会重新设计循环,在前端引入低成本的确定性判断。快速分类,然后分支:简单任务在快速模式中完成,复杂任务升级到完整深度模型。 仅此一点就能减少人工盯守的需求。在我目前的 5.3 技术栈中,我花费大量精力防止循环失控。速度分层可以将这部分精力转移到更清晰的路由设计上。
更好的视觉处理将简化我的 UI 分析流水线。目前,我对原型图使用三步链:基础说明 → OCR 处理 → 布局检查。如果 5.4 将前两步合并,我会淘汰 OCR 环节,只保留布局验证器。这样少维护一个工具,也少了出错的地方。
如果上下文保持能力改进,我会减少提示中反复提醒的节奏。我会保留一个小而不可变的规则块,信任模型能在更长的运行过程中保持它。更少的脚手架,更少的 token,同样的结果。
成本与性能的权衡
速度分层通常伴随着质量代价。我把这视为一个特性,而非缺陷。将它用于:
- 路由和轻量验证(我们解析出日期了吗,是或否?),
- 提前退出(这是已知的常见问题吗?),
- 检索上下文的健康检查(这个片段甚至提到了该实体吗?)。
其他所有影响输出的推理,都需要付出深度的代价。如果 5.4 的快速层级每 token 更便宜,我预计在高吞吐量任务中会有小幅节省,但真正的收益是延迟。每个任务的成本可能略有下降,而感知速度可能大幅提升。
如果定价没有变化,我仍然会拆分工作。即便用 5.3,使用更小/更便宜的模型做路由通常也是值得的。原生的快速层级只是减少了胶水代码。

迁移注意事项
- 从影子测试开始。用相同提示分别跑 5.3 和 5.4(待上线),对比结果差异。在看过几十个边缘案例之前,不要切换线上路径。
- 保持工具 schema 严格。模糊的描述会在 5.3 上膨胀调用次数,在 5.4 上也很可能如此,无论快速模式与否。
- 记录 token 压力。很多”性能退步”只是提示更紧凑了。追踪窗口使用情况并删减样板内容。
- 对提示进行版本管理。我在系统消息中保留一个小的变更日志。如果 5.4 在更精简的提醒下表现更好,你会需要一份关于删改内容的记录。
- 悄悄观察视觉效果。如果你依赖截图,用低对比度文字、拥挤的 UI 和奇特字体进行测试。一套好的测试集胜过十几个零散的案例。
如果你是小团队,最安全的方式是分阶段进行:先在一个小范围工作流(路由、分类)上试点,然后再扩展。
对于独立开发者,我建议尝试一个习惯改变:在提示链顶部添加一个”快速还是完整?“的判断门。即使 5.4 没有推出快速模式,这个习惯本身也有帮助。
重要说明(对比基于泄露信号)
在官方发布或文档出现之前,这里关于 GPT-5.4 的所有内容都是二手信息。5.4 的部分是泄露信号与根据过往更新谨慎推测的混合体。如果 5.4 真正落地,我会重新运行相同的任务并更新本文。目前,请把这篇文章看作用铅笔而非墨水画出的地图。
最后一点:即使是微小的速度提升,也能让工作流松一口气。 如果这就是 5.4 带来的全部,我也欣然接受。





