AI知识挪用:企业权力与民主获取的较量
AI公司大规模挪用版权内容训练模型,引发知识控制权之争。探讨技术、法律与民主价值的碰撞,及平衡创新与公平的路径。
AI知识挪用:开放获取之战的新战线
在激进主义者亚伦·斯沃茨(Aaron Swartz)去世十余年后,美国在如何对待知识的大规模挪用问题上仍面临着严峻的矛盾——这一矛盾将企业权力与民主价值置于对立面。斯沃茨于2013年自杀身亡,此前他因从JSTOR下载学术论文而遭到联邦检察官的起诉。他认为,公共资助的研究应当免费向公众开放。如今,AI公司正在进行一种规模更为庞大的信息提取行为,引发了关于版权、控制权以及知识未来的紧迫问题。
斯沃茨先例与AI的双重标准
斯沃茨被起诉的原因是他从JSTOR(一个学术研究数字图书馆)下载了数千篇学术论文。当时,这些研究大多由纳税人资助,在公共机构进行,并旨在推动公众理解——然而,它们却被锁在付费墙背后。斯沃茨的行为挑战了他眼中刻意设限的系统,而美国政府则以重罪指控和数十年监禁的威胁作为回应。
时移世易,到2025年,局面已发生巨大变化。像Anthropic这样的AI公司正在抓取大量版权材料——书籍、新闻、学术论文、艺术作品和个人写作——通常未经同意、补偿或透明度。这些数据集被用于训练大型语言模型(LLMs),然后被商业化并回售给公众。然而,与斯沃茨不同,AI公司并未面临刑事起诉。相反,它们通过和解(如Anthropic与出版商达成的15亿美元协议)将版权侵权视为“创新”的不可避免成本。
执法上的差异显而易见。斯沃茨因试图解放知识而被视为罪犯;AI公司则被视为不可或缺的经济引擎,即便它们从相同的基本原则——大规模信息提取——中获利。
AI训练数据的技术与法律影响
AI对抓取数据的依赖给安全和法律专业人士带来了多项关键挑战:
-
挪用规模:Anthropic、OpenAI和Google等公司开发的LLMs在包含数十亿文档的数据集上训练,其中包括版权作品。与传统版权纠纷(涉及单一侵权实例)不同,AI训练涉及对受保护材料的系统性、大规模复制。
-
缺乏透明度:大多数AI公司不披露其训练数据集的完整范围,这使得评估其是否符合版权法或道德规范变得困难。这种不透明性还延伸到模型本身,这些模型作为“无法审计偏见、准确性或来源”的“黑箱”运行。
-
和解作为商业模式:Anthropic的15亿美元和解协议——按约50万部作品每部3000美元计算——表明侵权成本已被纳入AI公司的商业模式。法律专家估计,该公司避免了超过1万亿美元的潜在责任,凸显和解可能成为大规模挪用的事实上的许可。
-
司法与政策模糊性:法院和政策制定者尚未为AI训练数据建立明确标准。一些法官裁定在版权材料上训练属于合理使用,而另一些则表示怀疑。与此同时,政策制定者在平衡AI的经济潜力与保护创作者权利之间摇摆,往往为了避免扼杀创新而倾向于谨慎行事。
影响:谁控制知识的基础设施?
利害关系远超版权法。随着AI系统越来越多地通过搜索、综合和解释来调节信息获取,它们也在塑造哪些知识被优先考虑、谁被视为权威以及哪些问题可以被提出。这种控制权的集中带来了深远影响:
-
公共知识的企业掌控:在公共资助研究(如NIH资助的研究、政府报告)上训练的AI模型通常是专有的,这意味着公众必须再次付费才能获取源自其自身税款的洞见。这与斯沃茨反对的付费墙问题如出一辙,但规模更大。
-
民主规范的侵蚀:如果信息获取由企业优先级而非民主价值主导,公共话语将受到损害。例如,AI模型可能优先提供与其母公司财务利益一致的答案,而非最准确或公平的答案。
-
问责与信任:与传统媒体或学术出版不同,AI系统缺乏公共审查机制。用户无法验证AI生成回复的来源、审计其偏见或挑战其输出。这削弱了依赖AI进行决策的机构(从医疗到执法)的信任。
建议:平衡创新与公平
对于安全专业人士、政策制定者和技术专家而言,前进的道路需要同时解决AI知识挪用的技术和伦理层面:
-
透明度与审计:应要求AI公司披露其训练数据集,并允许独立审计其模型。这将使研究人员能够评估其是否符合版权法、识别偏见并评估训练数据的来源。
-
明确的法律框架:政策制定者必须为AI训练数据建立明确的标准,包括合理使用指南、对创作者的补偿以及不合规的处罚。当前由诉讼和和解组成的拼凑体系不可持续,且偏向资金雄厚的企业。
-
公共替代方案:政府和学术机构应投资于基于合乎伦理来源数据训练的开源AI模型。这些替代方案可以作为企业控制系统的制衡,确保公共资助的研究保持对公众开放。
-
伦理数据采集:AI公司应采用选择加入模式获取训练数据,公平补偿创作者,并透明说明其作品的使用方式。这将与民主价值保持一致,并降低法律挑战的风险。
-
公共倡导:安全专业人士和技术专家应参与关于AI伦理影响的公共讨论。斯沃茨的斗争不仅关乎获取——更关乎谁有权决定知识的治理方式。这一问题依然迫切。
民主承诺的考验
知识的处理方式——谁可以获取、谁可以从中获利、谁因分享而受到惩罚——已成为民主价值的试金石。斯沃茨的案例揭示了一个系统的矛盾:它将挑战付费墙的个人定为罪犯,却允许企业大规模挪用知识。如今,AI对数据的大规模提取再次提出了同一个根本问题:知识将由开放和公共利益主导,还是由企业权力主导?
答案不仅将决定AI的未来,更将决定民主的未来。