一项由艾伦人工智能研究所等机构于本月发布的最新研究显示,包括Midjourney、DALL-E 3、Stable Diffusion在内的主流AI图像生成器,在生成描绘特定职业或社会角色的图像时,存在系统性且显著的人种与性别偏见。该研究通过大规模提示词测试,量化了AI模型输出结果中刻板印象的严重程度。
研究人员设计了涵盖“医生”、“CEO”、“社会工作者”、“恐怖分子”等数十个职业与身份类别的提示词,向多个主流AI图像生成器发起请求,并对生成的数千张图像进行统计分析。结果显示,偏见模式高度一致且显著。

“这些模型并非在真空中创造图像,它们反映并放大了训练数据——即互联网上存在的偏见。”研究报告的主要作者之一在艾伦人工智能研究所的官方博客中写道,“我们的工作量化了这种偏差,表明当前最先进的系统仍在持续输出刻板印象。”
AI图像生成器的核心工作原理是基于从互联网抓取的数十亿图文对进行训练。互联网内容本身在种族、性别、文化代表性上就存在严重不平衡。当模型学习到“CEO”一词总是与特定性别和种族的面孔相关联时,它就会在生成时复现这种关联。

此外,模型开发者为使生成内容“更符合用户预期”而进行的后期对齐与微调,有时无意中加剧了偏见。例如,当用户简单输入“一个快乐的人”时,模型可能会根据其内部统计概率,优先输出最常见(但可能不代表全部)的人群特征。

这一研究结果对AI行业产生了直接冲击。首先,它加剧了关于AI伦理与公平性的长期争论。批评者指出,此类偏见若被应用于招聘、广告、教育素材生成等场景,将强化社会不平等。

其次,开发这些模型的公司正面临日益增长的外部审查和监管压力。欧盟的《人工智能法案》和全球多地正在酝酿的AI治理框架,都将“偏见与歧视”列为高风险领域的核心关切。持续存在的偏见问题可能带来合规风险与品牌声誉损害。

对于用户而言,尤其是教育工作者、媒体内容创作者,他们在使用这些工具时需要保持高度警惕,避免不自知地传播带有偏见的视觉内容。
主要AI公司已意识到该问题并尝试应对。例如,OpenAI和Stability AI等在其最新模型中引入了“负面提示词过滤”和更细粒度的控制功能,允许用户指定或排除某些人口特征。然而,研究指出,这些措施往往是“创可贴”式的修补,未能从根本上解决训练数据分布不均的核心问题。
未来的解决方案可能涉及多管齐下:
专家认为,彻底消除AI偏见是一个与改善社会结构性偏见并行的长期挑战。正如一位未参与该研究的AI伦理学者所评论的:“技术是一面镜子。在擦亮镜子之前,我们必须先审视镜中的世界——以及创造这个世界的数据。” 随着AI生成内容日益普及,对其输出结果的批判性审视,已成为所有使用者不可或缺的新素养。