GPT-5.4 发布解读:更强推理、更长上下文、原生电脑操作,OpenAI 在押注“能直接干活”的模型
OpenAI 已正式发布 GPT-5.4,并同步上线 GPT-5.4 Pro。和前代相比,这次升级并不只是常规的“更聪明一点”,而是把推理、编码、工具调用、长上下文和电脑操作能力进一步整合到同一条产品主线里。对于普通 ChatGPT 用户,这意味着更强的 Thinking 模式、更好的表格与文档处理、更稳的网页研究;对于开发者和自动化场景,这意味着 1M token 上下文、原生 computer use、tool search,以及更适合长链路任务的模型行为。
如果只看一句话总结,GPT-5.4 的重点不是继续做一个“聊天更像人”的模型,而是进一步把模型往“能够直接完成专业工作”的方向推。无论是写代码、做表格、整理文档、跑多工具流程,还是跨网页和软件界面执行任务,OpenAI 都在试图把这些能力收拢到一个更统一的旗舰模型上。

OpenAI 在 GPT-5.4 Thinking System Card 页面使用的官方主视觉图。它不提供参数细节,但能明确传达这代模型的官方命名与发布定位,适合作为文章前段的视觉引导。
一、GPT-5.4 到底更新了什么
根据 OpenAI 官方公告,GPT-5.4 已同步进入 ChatGPT、API 与 Codex。OpenAI 将其定义为“最强且更高效的前沿模型”,同时还推出了面向更高难度任务的 GPT-5.4 Pro。
这一代模型最值得关注的变化,主要集中在五个方向:
- 推理、编码与工具使用能力进一步整合
- 支持最高 1M token 上下文窗口
- 首次在主线通用模型中引入原生 computer use 能力
- 强化大规模工具生态下的 tool search 能力
- 在知识工作、文档处理、表格制作和多步骤任务上更强调“直接产出”
从官方表述来看,GPT-5.4 继承了 GPT-5.3-Codex 的代码能力,同时补强了文档、演示文稿、表格和跨工具工作流,这意味着它瞄准的已经不仅是程序员,也包括分析、研究、运营、财务、办公自动化等更宽泛的知识工作场景。
二、对普通 ChatGPT 用户来说,有哪些直观变化
在 ChatGPT 侧,OpenAI 目前把产品层级分成了 GPT-5.3 Instant、GPT-5.4 Thinking 与 GPT-5.4 Pro 三档。
- Auto:系统在 GPT-5.3 Instant 与 GPT-5.4 Thinking 之间自动切换
- Instant:更快,适合日常问答、写作、翻译和常规任务
- Thinking:更适合复杂问题、研究型任务和长链路推理
- Pro:更高能力版本,面向最难的问题和更长流程
OpenAI 帮助中心提到,GPT-5.4 Thinking 重点增强了表格创建与编辑、前端代码质量、幻灯片生成、复杂数学、文档理解、指令跟随、图像理解、工具使用以及跨网页多源信息整合能力。相比早期的 Thinking 模型,它还更能在长时间思考中保持上下文,不需要用户反复补充要求。
另一个比较实用的变化是,GPT-5.4 Thinking 开始支持在推理启动前给出一个简短的前置计划,用户可以在它“思考中”追加指令,临时调整方向。这种设计更接近“半交互式推理”,对复杂任务尤其有价值,因为用户不必等整轮输出结束后再返工。
从产品体验角度看,这其实意味着 ChatGPT 正在从“你问我答”的静态交互,逐步过渡到“边做边校准”的动态工作流。
三、GPT-5.4 最重要的技术变化:1M 上下文与原生电脑操作
如果从开发者视角看,GPT-5.4 的升级中最重要的两个关键词,基本就是“1M 上下文”和“computer use”。
1. 1M token 上下文窗口
OpenAI 在 API 文档中给出的信息显示,GPT-5.4 与 GPT-5.4 Pro 都支持 1,050,000 token 级别的上下文窗口。这一能力让模型更适合处理整仓代码、超长文档集合、大量会议纪要、长链路 Agent 执行轨迹等任务。
对于企业与开发者来说,长上下文的意义不只是“能塞更多字”,而是可以减少频繁切片、摘要和上下文拼接带来的流程复杂度。在代码审查、知识库问答、复杂客服流程、长文档分析这类任务里,1M 上下文会明显降低工程实现成本。
2. 原生 computer use
更值得注意的是,OpenAI 将 GPT-5.4 定义为首个具备原生电脑操作能力的主线通用模型。按照官方说法,它能够通过截图观察界面,并输出结构化动作,让外部执行环境代为完成点击、键盘输入、浏览器与桌面软件操作。
这件事的重要性在于,模型不再只是“给建议”,而是开始更自然地进入真实的软件流程中:打开页面、填写表单、检查结果、修复错误、重复验证。对于 Agent、自动化测试、RPA、前端验收、网页批处理等场景,这一步是非常关键的能力补齐。
官方还提到,GPT-5.4 在 OSWorld-Verified、WebArena-Verified、Online-Mind2Web 等与电脑和浏览器操作相关的评测上表现强势,显示它不仅仅是“支持这个功能”,而是把 computer use 当成核心能力来推进。
四、Tool Search:OpenAI 在为大规模 Agent 生态铺路
除了电脑操作,GPT-5.4 另一个容易被低估的能力是 tool search。
过去模型接入很多工具时,常见做法是把全部工具定义一次性塞进提示词。这种方式的缺点很明显:工具越多,token 成本越高,缓存命中越差,首轮响应越慢,模型也更容易在一大堆函数里选错工具。
OpenAI 这次给 GPT-5.4 引入了 tool search 机制,本质上就是先只给模型一个轻量级工具目录,需要的时候再去搜索并加载具体工具定义。这样做的直接好处有三个:
- 减少工具型工作流的 token 消耗
- 提升缓存利用率和响应速度
- 在大规模工具生态下提高选工具的准确性
如果说 computer use 解决的是“模型怎么动手”,那么 tool search 解决的就是“模型面对很多工具时怎么高效选对工具”。这两者组合起来,实际上就是在给更复杂的 Agent 系统铺底座。
五、官方强调的核心提升:知识工作、表格、文档和前端
OpenAI 这次并没有把 GPT-5.4 的卖点只放在抽象 benchmark 上,而是非常明确地强调了“知识工作”表现。官方公告提到,GPT-5.4 在 GDPval 这类面向真实职业任务的评测上达到 83.0% 的胜或平表现,明显高于 GPT-5.2 的 70.9%。
同时,OpenAI 特别点名了表格建模、演示文稿生成、文档处理和复杂前端任务。换句话说,这次模型优化已经不是单纯冲着数学题和编程竞赛去,而是直接面对职场里最常见、最消耗时间的办公任务。
从实用角度看,这个方向非常现实。因为真正决定企业是否愿意为模型付费的,往往不是它能不能多刷几分 benchmark,而是它能不能稳定生成可交付的表格、PPT、网页、分析文档和跨系统流程结果。

这张图来自 OpenAI GPT-5.4 官方介绍页,对应其在表格、文档和演示文稿等知识工作场景的强化。放在这里比放在文首更合适,因为它能直接配合“知识工作能力提升”这部分论述,帮助读者理解 GPT-5.4 的升级重点并不只是聊天,而是更偏向可交付的办公产出。
六、价格怎么变了:GPT-5.4 和 GPT-5.4 Pro 分别适合谁
根据 OpenAI API 模型页信息,GPT-5.4 的标准价格大致为:
- 输入:每 100 万 token 2.50 美元
- 缓存输入:每 100 万 token 0.25 美元
- 输出:每 100 万 token 15 美元
而 GPT-5.4 Pro 则显著更贵:
- 输入:每 100 万 token 30 美元
- 输出:每 100 万 token 180 美元
这说明 OpenAI 的产品分层已经非常清晰。GPT-5.4 是旗舰主力,强调通用、强大、可大规模部署;GPT-5.4 Pro 则更像是“高算力深思考”版本,适合高价值、低频但难度极高的任务,例如研究、复杂规划、长链路决策和极高准确率要求的工作。
对于一般开发团队和多数业务场景来说,GPT-5.4 大概率会是更合理的默认选择;而 GPT-5.4 Pro 更像是给关键任务准备的高配选项。
七、ChatGPT 可用范围与限制
根据 OpenAI 帮助中心,目前 GPT-5.3 是所有 ChatGPT 用户的默认模型,而 GPT-5.4 Thinking 与 Pro 则按套餐逐步开放:
- 付费用户可在模型选择器中手动选择 GPT-5.4 Thinking
- GPT-5.4 Pro 仅面向 Pro、Business、Enterprise 和 Edu
- Enterprise 与 Edu 默认关闭,需要管理员在 Early Model Access 中手动开启
此外,Thinking 模式存在用量上限。例如 Plus 与 Business 用户可以手动选择 GPT-5.4 Thinking,但有每周消息上限;而 Business 与 Pro 方案则提供更宽松甚至接近无限的使用条件,但同时附带滥用防护规则。
这也说明一个现实:OpenAI 虽然在产品上努力让高能力模型更普及,但真正完整释放 GPT-5.4 系列能力,依然更偏向高价值付费用户和企业客户。
八、值得关注但容易忽略的一点:安全与风险控制也被抬到了更高优先级
在 GPT-5.4 Thinking System Card 中,OpenAI 提到 GPT-5.4 Thinking 是 GPT-5 系列中首个针对高能力网络安全场景实施了专门缓解措施的通用模型。这个信号其实很清楚:随着模型具备更强的工具调用、浏览器操作和电脑操作能力,安全控制已经不能再是附属项,而必须作为主功能同步设计。
对企业来说,这一点很关键。因为当模型开始“真正动手”,它的风险边界就不再只是错误回答,而会延伸到真实系统操作、权限流程和业务动作。OpenAI 在官方文档里也建议,computer use 适合在隔离环境中运行,并应对高影响操作保持人工在环。
九、怎么理解 GPT-5.4 的产品意义
如果把 OpenAI 最近几代模型连起来看,会发现一个很明显的方向:从单纯拼知识、拼推理,转向拼“完成真实工作”的能力。
GPT-5.4 之所以重要,不只是因为它更强,而是因为它把几个过去相对分散的能力拼起来了:
- 代码能力来自 GPT-5.3-Codex 路线
- 推理能力来自 GPT-5 系列持续强化
- 长上下文降低复杂任务的工程门槛
- computer use 让模型真正进入软件界面
- tool search 让大规模工具编排变得更现实
这几项能力合在一起,指向的不是更强聊天,而是更强执行。换句话说,OpenAI 正在把旗舰模型做成一个更像“通用工作引擎”的系统。
十、结语
从目前公开信息看,GPT-5.4 是一次非常典型的“面向专业工作升级”的版本。它并没有停留在抽象参数堆叠,而是在产品、API 和 Agent 能力上做了比较完整的合流:普通用户能感知到更强的 Thinking 和更稳的复杂任务表现,开发者能拿到更长上下文、更强工具协作和原生电脑操作,企业则会更关注它在知识工作与自动化流程中的可落地性。
如果你只是把它当成下一代聊天模型,可能会低估 GPT-5.4;但如果你把它看作 OpenAI 在“模型直接干活”这条路上的又一次大推进,这次更新的意义就会清晰很多。
参考来源
版权声明:
作者:KEJILION
链接:https://blog.kejilion.pro/openai-gpt-5-4/
来源:科技lion官方博客【国内版】
文章版权归作者所有,未经允许请勿转载。



共有 0 条评论