北京时间5月21日,人工智能研究公司OpenAI发布了其首份《准备框架》透明度报告,系统性地披露了其对最先进人工智能模型在网络安全、核威胁等“灾难性风险”领域的评估数据、决策流程及安全防护措施。此举被视为AI行业在模型安全治理与透明度方面迈出的关键一步。
这份长达数十页的报告基于OpenAI内部“准备团队”的持续评估工作,旨在衡量其前沿模型(指远超当前最先进模型能力的未来模型)的潜在风险。报告首次公开了多项关键评估指标与应对策略。

“我们相信,前沿AI模型的能力将在未来几年内显著超越目前的水平。发布这份框架和报告,是为了在我们达到更强大系统之前,建立起严格的评估与安全标准。”报告在引言中如此阐述其发布目的。
长期以来,领先的AI公司因其模型训练数据、安全评估细节和决策过程的不透明而受到批评。随着AI模型能力飞速提升,来自政府、学术界和公众要求提高透明度的压力与日俱增。欧盟的《人工智能法案》和美国的行政命令均对高风险AI系统提出了透明度要求。OpenAI此次发布报告,既是对监管趋势的回应,也是在行业内发起的一场关于安全实践标准的“透明度竞赛”。

此前,Anthropic、Google DeepMind等竞争对手也已发布各自的安全承诺或框架,但OpenAI此次报告因其包含了相对具体的评估数据和决策节点而显得更为深入。

此份报告的发布预计将对AI行业产生连锁影响。首先,它为其他AI公司设立了一个可参照的透明度基准,可能推动行业在安全评估方法论和披露标准上趋于一致。其次,报告为政策制定者提供了具体的行业实践案例,有助于更务实的监管讨论。

对于开发者和企业用户而言,报告增强了他们对AI模型安全边界的认知,但同时也可能引发对模型能力被过度限制的担忧。OpenAI在报告中试图平衡安全与效用,强调“我们的目标是使模型既尽可能安全,又尽可能强大”。

此外,报告披露的“中等”网络安全风险评级,也引发了安全专家关于当前AI模型已被用于辅助网络攻击的现实讨论。
OpenAI在报告中承诺,未来将至少每年发布一次类似的透明度报告,并可能随着模型能力的演进调整评估框架。这标志着AI安全透明度正从自愿性承诺向制度化、常态化实践转变。
然而,挑战依然存在。报告并未公开评估所用的全部测试细节、具体模型版本以及部分敏感数据,这被部分观察人士认为透明度仍有提升空间。同时,如何准确预测和评估尚未问世的前沿模型的“灾难性风险”,本身就是一个巨大的技术难题。
独立AI安全研究机构“对齐研究中心”的一位研究员评论称:“系统性披露是一个积极的开始,但真正的考验在于,当面临巨大的商业竞争压力时,公司是否还能严格遵守其设定的安全阈值。” 来源: 对齐研究中心相关评论 (2024年5月) 未来,行业、监管机构与独立第三方如何共同验证这些安全评估的有效性,将是确保AI安全透明发展的关键。