“心灵鸡汤”出版商控诉苹果、谷歌等公司非法使用版权书籍训练其AI
出版商集体诉讼苹果等科技巨头:指控非法使用版权书籍训练AI模型
3月19日,路透社披露,知名出版品牌“心灵鸡汤”已在美国加州联邦法院提起诉讼。这起诉讼的核心指控是:苹果、谷歌、OpenAI等八家科技公司系统性地利用受版权保护的书籍来训练其人工智能模型,涉嫌构成大规模版权侵权。
被告囊括AI领域核心竞争者
本次诉讼的被告名单几乎覆盖了生成式AI领域的所有关键厂商:苹果、谷歌、英伟达、Meta、OpenAI、Anthropic、Perplexity AI以及埃隆·马斯克旗下的xAI。这场法律行动将行业的主要参与者同时置于被告席,凸显了版权问题在AI发展中的普遍性与尖锐性。
侵权路径与争议数据源揭秘
诉状详细揭露了涉事公司被指控的数据获取方式。据称,这些公司从“The Pile”、LibGen、Z-Library和Anna‘s Archive等被称为“影子图书馆”的网站大量获取盗版书籍文本。这些受版权保护的完整作品随后被解析为训练数据,直接用于构建和优化其大型语言模型(LLMs)的核心能力。
原告方将这一行为定性为“系统性版权盗窃”,其背后的商业动机显而易见:规避高昂的授权成本与耗时谈判,从而在生成式AI的军备竞赛中获取不公平的速度与成本优势。
苹果涉案细节与历史争议
对苹果的指控聚焦于其基础模型的训练数据来源。诉讼明确指出,苹果模型的训练依赖于包含大量版权作品的“The Pile”和Books3数据集。这些数据集中收录了众多畅销书作家及普利策奖得主的作品,而苹果被指在使用这些内容优化其AI能力时,未向任何版权所有者支付许可费用。
“The Pile”数据集并非首次陷入法律与伦理争议。早在2024年初,另一起涉及YouTube视频AI训练的诉讼中,该数据集就已被提及。当时苹果的回应是,这些数据仅用于非商业性开源研究,并未用于驱动其消费者产品如“Apple Intelligence”的任何功能。
此案将科技公司AI训练数据的合法性边界问题再次推向前台。其结果很可能为AI开发中“合理使用”原则的适用范围树立关键判例,并对整个行业的数据采购与合规实践产生深远影响。