GPT-5.4 与 GPT-5.3：可能真正改变的是什么

嗨，我是 Dora。我发现自己一直在盯着一个长时间运行的 agent 循环。没什么戏剧性的事，就是那种缓慢、焦躁的感觉——模型不停地要求再调用一次工具，然后又一次。这让我想起，我的工作日有多少时间耗在这些边边角角上：那些停顿、重试，还有”它到底有没有读那份文档？“的瞬间。

于是我花了一个下午重新翻阅了关于 GPT-5.3 的笔记，又粗略浏览了早期 GPT-5.4 的一些讨论。关于模型架构和延迟方面的早期泄露讨论，在这篇 GPT-5.4 泄露分析中有所汇总。这不是为了追逐下一个大事件，更多是为了回答一个小问题：这些变化能减少工作流中那些令人烦躁的部分吗？这是我关于 GPT 5.4 vs GPT 5.3 的持续记录，包含我实测的数据、我认为可信的内容，以及我仍持保留态度的地方。

GPT-5.3 能力：当前基线

推理与工具调用性能

自 2026 年 1 月中旬以来，我一直在将 GPT-5.3 用于三项固定工作：汇总产品研究、分类处理支持工单，以及搭建小型脚本框架。简而言之：如果我给它一个清晰的结构，它能很好地处理多步推理。 当我明确了角色、状态和终止条件后，它会一路跟下去，不会跑偏。

在工具调用方面，函数调用一直很稳定。我依赖 OpenAI 的函数调用模式和标准工具 schema，没有什么意外。使用定义清晰的工具（搜索、检索、简单的向量查找）时，5.3 的调用保持整洁。在一次处理 20 封邮件的分类任务中，它平均每个线程调用 1.7 次工具，低于我旧版配置的 2.4 次。这消除了那些小的”现在怎么办？“停顿。但有个问题：如果我的工具描述模糊，它就会试图用更多调用来弥补。

我最明显感受到的是它对不完整上下文的容忍度。如果我只传入相关片段和简短的状态摘要，它仍然能正常推理。但如果我塞入大量松散相关的笔记，它就开始含糊其辞。

编程与 agent 工作流支持

在代码方面，5.3 在中小型重构上表现稳定。它擅长生成带有清晰说明的 diff，并且如果我预先提供简短的风格指南，它能保持一致的代码风格。它的薄弱之处在于需要紧密依赖关系感知的跨文件修改。我通常会切换到两遍处理模式：第一遍让它列出编辑计划，第二遍逐文件应用。这样可以防止它过于自信地修改不该动的地方。

在 agent 工作流中，当我限制递归深度并记录每个决策时，5.3 表现最佳。我确定了一个三步循环：计划 → 调用工具 → 反思。超过这个步数，它就开始啰嗦。我还会提示它以紧凑的 JSON 格式输出状态，这能减少解析错误。这些都不是什么魔法，只是让循环少一些”黏人”的护栏。

已知局限

当我将系统规则与长用户任务混在一起时，它有时会重复处理指令：我已经学会在提示末尾重申关键约束。
它有时会坚持重新总结我已经总结过的内容，白白消耗 token 和时间。
在视觉任务（截图、UI 原型）上，它在标注和描述方面还可以，但会漏掉小字和精细的布局逻辑。它把开关误认为按钮的情况不止一次。
在 token 紧张的情况下，它倾向于给出安全的泛泛之词，而不是精确的边界分析。我在评估错误日志时看到这一点：它会列出可能的原因，但不愿在没有更多上下文的情况下明确表态。

这就是我对 5.3 的实际印象：明确时可靠，模糊时略显焦虑。

GPT-5.4 信号所显示的变化

截至 2026 年 3 月 5 日，我还没有直接访问过 5.4。以下内容来自早期泄露帖子、私人论坛中一些可信开发者的注释，以及我在模型系列逐步迭代时学会关注的规律。我会对每个观点标注：可观测的、基于泄露的，或推测性的。

推理速度与快速模式的影响

基于泄露：多个来源提到了用于短形式推理的”快速模式”或低延迟层级。如果属实，这对原始吞吐量的意义不如对 agent 节奏的意义大。首 token 延迟降低 20–30% 会让循环的感觉从笨重变为流畅。对比 GPT-5 与 DeepSeek、GLM 等模型的基准测试，可以看出延迟和成本对开发者工作流的实际影响有多大。在我的 5.3 配置中，普通提示的首 token 延迟在 600–900 毫秒左右：即便削减 150–200 毫秒，也能让工具链少一些走走停停的感觉。我预期这个快速模式会以牺牲部分深度为代价，适用于路由、分类，或在进行更深层处理前的快速验证。

可观测的：如果 5.4 真的添加了速度分层，我可能会拆分工作流：快速分类 → 路由 → 深度处理。这已经是一种常见模式，速度提升只会让它更流畅。

视觉输入处理改进

基于泄露：更好的小字 OCR 和更稳定的布局推理。线索指向对低对比度 UI 文字的识别改进以及更精细的边界框逻辑。如果属实，这将解决我在 5.3 上的两个摩擦点：截图中的小字和 UI 控件的区分。

可观测的：这将省去我在验证界面线框图时来回确认的麻烦。现在，当 5.3 处理不了时，我会把截图单独跑一遍 OCR。如果 5.4 减少了这些绕路，我可以从工具链中移除一个工具。

潜在的上下文窗口扩展

推测性的：可用上下文略有增加，或在长提示中保持更好的记忆。我指的不是头条数字，而是长对话后半段的实际召回能力。如果 5.4 能更稳定地保持任务约束而不需要我反复重申，就会改变我组织状态的方式。更少的提醒，更少的 token 消耗。如果只是原始窗口增大而没有更好的召回，好处会小得多。

等我看到长时间运行中”重新解读”的情况减少，我才会相信这一点。在此之前，我持谨慎态度。

对比表格

我更喜欢将我实测的内容与我只是听说的内容分开。以下是三个简短的表格，视角保持一致。

已确认的能力

领域	GPT-5.3	GPT-5.4
工具调用 / 函数调用	使用清晰 schema 时稳定：我的运行中每个任务典型 1–3 次调用	未确认
token 压力下的推理	退化为泛泛之词：受益于重申约束	未确认
视觉（UI 截图）	遗漏小字：混淆部分控件	未确认
Agent 循环行为	在 2–3 步循环和明确停止条件下表现最佳	未确认
跨文件编程	安全起见需要两遍策略：diff 说明良好	未确认

参考资料：我遵循 OpenAI 函数调用文档和 API 参考中的工具定义模式。如果你感兴趣，官方文档是很好的参考基础：OpenAI API：函数调用和工具使用。

基于泄露的信号

领域	GPT-5.3	GPT-5.4（基于泄露）
推理速度分层	仅标准模式	添加更快、更轻量的低延迟响应层级
视觉 OCR	足够用，但对小字/低对比度文字有困难	改进小字识别精度和布局处理
每 token 成本	当前公布价格	快速层级略有降低（未经证实）

来源质量：参差不齐。部分细节与过往版本的规律吻合，但均未经确认。

推测性改进

领域	GPT-5.3	GPT-5.4（推测性）
上下文保持	需要频繁重申约束	以更少的重申保持更长时间的约束
工具调用效率	schema 模糊时有时过度调用	对相似提示有更好的调用节制
长期规划	超过 3–4 步后犹豫不决	多步规划略微更稳定