2026 年 3 月 5 日,美国旧金山,OpenAI 正式推出其最新一代旗舰模型 GPT-5.4。此次发布被业界视为人工智能从“对话助手”向“自主智能体”演进的分水岭。GPT-5.4 不仅将上下文窗口扩展至 100 万 Token,更首次实现了“原生计算机使用(Native Computer Use)”能力,能够直接通过视觉理解屏幕并执行键鼠操作。这一突破标志着 AI 正式具备独立闭环完成复杂工作流的能力,引发了全球科技界的强烈震动。
当地时间 3 月 5 日,OpenAI 在毫无预兆的情况下发布了 GPT-5.4 系列,涵盖标准版、强化推理的"Thinking"模式以及面向高端任务的 Pro 版本。据 OpenAI 官方技术文档显示,该模型的核心突破在于构建了“大一统”架构,首次将顶级编程能力、通用推理能力与原生计算机操控能力整合进单一模型权重中。
最引人注目的功能是“原生计算机使用”。该功能让模型形成了“截图→分析→操作→验证”的闭环工作流。模型在看到屏幕截图后,能在同一次推理中完成视觉理解与操作决策,直接输出鼠标点击、键盘输入等指令,无需外挂工具。此外,GPT-5.4 Pro 支持高达 100 万 Token 的上下文窗口,可一次性处理整套项目文档或完整代码库。在效率方面,模型引入了“工具搜索(Tool Search)”机制,在 Scale 的 MCP Atlas 基准测试中,启用该机制后总 Token 消耗量减少了 47%。
GPT-5.4 的诞生标志着 OpenAI 模型设计哲学的根本性转变。在 GPT-4 时代,用户需在简单对话(GPT-4o)、复杂推理(o1 系列)和代码生成(Codex)等多个专用模型间手动切换,这种碎片化生态增加了用户的认知负担。2025 年 8 月发布的 GPT-5 虽开启了统一系统的新纪元,但直至 GPT-5.4 的问世,才真正解决了多模态理解与世界知识、代码能力的割裂问题。

此前,市场普遍预期大模型将在 2026 年迎来“智能体(Agent)”爆发期。竞争对手 Anthropic 推出的 Claude Opus 4.6 虽在世界知识和代码能力上表现强劲,但其高昂的价格(Max Plan 达 200 美元/月)及相对薄弱的多模态交互能力,为 OpenAI 留下了巨大的市场切入空间。GPT-5.4 的发布,正是对这一行业痛点的精准回应。
GPT-5.4 的发布将重塑软件交互与职场效率格局。对于行业而言,它推动了自动化从“脚本辅助”向“自主执行”的范式迁移。在金融建模等高精度场景中,内部测试数据显示,GPT-5.4 Thinking 模式在投资银行工作流程基准测试中得分高达 87.3%,远超 GPT-5 的 43.7%,甚至超越了初级人类分析师水平。
对用户市场而言,这意味着极高的性价比。ChatGPT Plus 用户仅需支付约 20 美元/月的费用,即可获得对标此前 200 美元档位的专业能力。对于竞争对手,尤其是依赖高溢价策略的厂商,GPT-5.4 以“白菜价”提供全能 Agent 基座,构成了巨大的竞争压力。同时,其原生的电脑操控能力可能加速传统 RPA(机器人流程自动化)软件的边缘化。

业内资深开发者评价称,GPT-5.4 集齐了优秀 Agent 基座的三大圣杯:顶级代码能力、丰富世界知识与原生多模态理解,是真正的“天选模型”。针对网络安全领域,OpenAI 随后于 4 月推出的 GPT-5.4-Cyber 版本,因具备二进制逆向工程能力且限制更少,引发了安全圈的热烈讨论,但也促使巨头们紧急召开合规会议。
市场反应迅速,自 3 月 6 日起,ChatGPT 付费用户已陆续收到推送,免费用户也于次日开放基础访问。国内开发者社区对此反响强烈,各类关于利用 GPT-5.4 进行 Excel 自动化、跨应用工作流编排的实测案例在技术论坛中刷屏。
随着 GPT-5.4 的全面铺开,预计 2026 年下半年将迎来基于“原生电脑操控”的企业级应用爆发潮。值得关注的节点包括后续 GPT-5.4 mini 与 nano 小型模型的推出,这将进一步降低部署成本。同时,如何规范具备自主操作能力的 AI 行为,防止误操作或恶意利用,将成为监管机构与行业联盟接下来的核心议题。OpenAI 表示,将继续优化推理时的计算缩放机制,以应对更复杂的长程任务挑战。