刚刚:OpenAI 发布 GPT-5.4,联手亚马逊重塑科学教育新范式

新闻导语

2026 年 3 月 5 日,美国旧金山,全球人工智能领军者 OpenAI 正式发布其最新基础模型 GPT-5.4。该模型被官方定义为“功能最强大、效率最高的专业工作前沿模型”,不仅实现了原生计算机操控能力的突破,更在推理与上下文处理上创下新纪录。与此同时,亚马逊宣布推出专为医疗及教育领域打造的 AI 代理平台,双方虽未正式结盟,但技术互补性暗示了重塑科学教育与专业服务范式的巨大潜力。

事件详情

当地时间 3 月 5 日,OpenAI 正式向公众推出了 GPT-5.4 系列模型。据官方介绍,除了标准版外,新版本还包含专注于深度思考的"GPT-5.4 Thinking"以及高性能优化版"GPT-5.4 Pro"。此次发布的核心亮点在于其前所未有的上下文处理能力——API 版本支持高达 100 万个 tokens 的上下文窗口,为 OpenAI 迄今之最。此外,模型显著提升了 Token 效率,能够以更少的计算资源解决同等复杂度的问题。

在性能基准测试中,GPT-5.4 表现卓越。在衡量桌面环境操作能力的 OSWorld-Verified 测试中,该模型取得了 75.0% 的成绩,不仅大幅超越前代 GPT-5.2 的 47.3%,更首次超越了 72.4% 的人类基准线,成为首款具备原生计算机控制能力且实操水平优于人类的通用模型。在覆盖 44 种职业的 GDPval 基准测试中,其胜率或平局率达到 83.0%。针对投行级电子表格建模等高精度任务,得分从上一代的 68.4% 跃升至 87.3%。

背景分析

GPT-5.4 的问世并非孤立事件,而是建立在 AI 大模型从“对话交互”向“智能体执行”演进的行业大背景下。此前,大模型多局限于文本生成与简单问答,而在复杂工作流自动化方面存在短板。OpenAI 通过将 GPT-5.3-Codex 的行业领先编程能力整合入新架构,成功打通了推理、编程与智能体工作流的壁垒。

与此同时,生态合作伙伴也在加速布局。同日,亚马逊推出了 AI 代理平台 Amazon Connect Health,旨在通过自动化预约、文档记录等行政任务赋能医疗机构。虽然该平台目前聚焦医疗,但其底层逻辑与 OpenAI 的智能体技术高度契合。在科学教育领域,长上下文窗口与原生操作能力的结合,意味着 AI 不仅能解答科学问题,更能直接操控仿真软件、处理海量科研数据,为教育模式的数字化转型提供了坚实的技术底座。

影响评估

GPT-5.4 的发布将对行业格局产生深远影响。首先,它标志着 AI 应用边界的极大拓展,特别是在自动化办公、复杂代码工程及科学研究领域,AI 将从“助手”转变为“执行者”。对于教育行业而言,具备原生操作能力的模型能够模拟实验环境、辅助数据分析,有望重塑科学教育的教学范式,降低实验门槛。

对市场而言,高达 100 万 tokens 的上下文窗口将催生新的应用场景,如全本小说分析、超大型代码库维护等。竞争对手方面,尽管 Anthropic 等厂商也在发力,但 OpenAI 在智能体实操能力上的领先(如 OSWorld-Verified 超越人类基准)短期内难以被撼动。然而,这也引发了对就业结构的担忧,尤其是初级行政、基础编程及部分数据分析岗位可能面临重构。

各方反应

业界对 GPT-5.4 的反响热烈。Mercor 首席执行官 Brendan Foody 指出,该模型在测试法律和金融领域专业技能的 APEX-Agents 基准测试中处于领先地位,证明了其在垂直领域的专业度。开发者社区则对“原生计算机控制”功能表示惊叹,认为这将彻底改变软件开发流程。

尽管亚马逊未在当日声明中直接提及与 OpenAI 的深度绑定,但其推出的 Amazon Connect Health 平台展现了类似的智能体落地思路。市场分析人士认为,亚马逊的云基础设施与 OpenAI 的顶层模型能力若进一步协同,将在垂直行业解决方案中形成强大的护城河。用户层面,早期测试者反馈显示,新模型在处理长文档和复杂任务时的幻觉率下降了 25%,SimpleQA 准确率提升至 62.5%。

未来展望

展望未来,随着 GPT-5.4 及其衍生版本(如后续可能推出的 Cyber 版或 Mini 版)的普及,AI 智能体将更深入地融入企业核心业务流程。预计在未来半年内,基于百万级上下文窗口的教育科研工具、全自动代码修复系统将成为市场热点。值得关注的时间节点包括今年第二季度各大云厂商对长上下文模型的适配进度,以及首个基于原生操控能力的规模化教育试点项目的落地情况。AI 重塑科学教育与专业服务的新篇章,才刚刚开启。