北京时间5月14日凌晨,人工智能研究公司OpenAI通过线上直播发布了其最新旗舰模型“GPT-4o”。该模型在保持GPT-4智能水平的同时,实现了推理速度的大幅提升,并原生集成了文本、语音、图像的多模态理解与生成能力,旨在为用户提供更自然、高效的交互体验。
据OpenAI官方技术博客介绍,GPT-4o的“o”代表“omni”(全能),标志着其设计初衷是成为一个真正无缝处理多种输入输出的统一模型。其核心升级主要体现在两方面:

“GPT-4o是我们迈向更自然人机交互的一步。它能够实时观察世界,进行语音对话,并感知用户的情绪。”OpenAI首席技术官米拉·穆拉蒂在发布会上表示。
此次发布正值全球AIGC(人工智能生成内容)产业竞争白热化阶段。近期,谷歌在I/O大会上发布了多项AI更新,Anthropic也推出了新版Claude模型。行业竞争焦点已从单纯的参数规模,转向推理效率、多模态融合、用户体验及成本控制等综合维度。

OpenAI自2022年发布ChatGPT引爆全球AIGC浪潮后,持续迭代其模型。GPT-4o的推出,被视为其对市场需求的直接回应——用户不仅需要更聪明的AI,更需要反应迅速、使用门槛更低、交互方式更丰富的AI。

GPT-4o的发布预计将对多个层面产生显著影响:

分析人士认为,GPT-4o的推出揭示了AIGC产业的两个明确趋势:一是模型正从“思考型”向“交互型”演进,实时性与情感共鸣成为关键指标;二是多模态正从“功能叠加”走向“原生统一”,为未来AI更深入地理解物理世界奠定基础。

斯坦福大学人工智能实验室的一位研究员在接受媒体采访时指出:“统一模型架构是通向更通用人工智能的重要路径。GPT-4o在实时音频视觉处理上的进步,是迈向‘具身AI’和更复杂人机协作环境的关键一步。”未来,随着此类技术的普及,AI与人类工作、生活的结合将变得更加紧密和无形。
目前,GPT-4o的文本和图像功能已开始向部分用户免费及Plus用户推送,新的语音模式将在未来几周内面向特定测试用户开放。其API也将同步向开发者提供。