美国时间6月28日,人工智能公司OpenAI及其最大投资者微软在加州北区联邦法院被提起集体诉讼。诉状指控其在未经授权、未支付报酬的情况下,大规模“窃取”并利用互联网上的个人和版权数据训练其AI模型(包括ChatGPT),构成系统性侵权。本案被视为AI版权争议领域的关键性法律对决。
这起由多位匿名作者和版权持有者发起的诉讼,直指AI大模型训练数据来源的“原罪”。诉状长达数十页,列举了多项关键指控。

“OpenAI站在一个由盗版材料组成的‘数据层’之上,没有这些材料,ChatGPT将不过是成本高昂的‘幻象’。”
此案并非孤例。随着生成式AI的爆发,其训练数据与版权法、隐私法的冲突日益尖锐。此前,已有艺术家对Stable Diffusion、程序员对GitHub Copilot提起类似诉讼。核心争议点在于:现行法律中的“合理使用”原则(Fair Use)是否适用于AI对海量版权数据的“阅读”与“学习”。

科技公司普遍主张,为AI训练而使用公开数据属于“合理使用”,是技术创新的一部分。而版权方则认为,AI模型不仅复制了数据的事实,更学习了其独特的风格与结构,并生成与之竞争的内容,这已远超“合理使用”范畴。OpenAI对此诉讼尚未公开回应,但其CEO萨姆·奥特曼曾多次公开承认数据版权是行业需要解决的难题。

此案的走向将对全球AI行业产生深远影响。

法律专家指出,此案很可能是一场漫长的拉锯战,最终可能需要美国最高法院来裁定AI训练与版权法的边界。在此期间,行业可能出现分化:一部分公司继续激进地使用现有数据,承担法律风险以抢占市场;另一部分则开始构建“干净”的数据供应链。

与此同时,技术解决方案也在探索中,例如开发能追踪训练数据来源的“溯源”技术,或建立更精细的数据使用授权协议。无论结果如何,此案都标志着AI产业“野蛮生长”阶段面临严峻的法律合规挑战,数据版权问题已成为悬在整个行业头上的“达摩克利斯之剑”。这场诉讼的结果,将不仅决定OpenAI的命运,更将为全球AI发展的基本规则写下重要注脚。