企鹅出版商在书中注明“不得用于AI训练”

埃默里大学法学院的人工智能和版权专家Matthew Sag表示，企鹅兰登书屋的做法似乎是针对欧盟市场的，但这也可能影响美国AI公司使用该出版社的作品。根据欧盟法律，版权所有者可以选择让他们的作品数据不被利用。虽然美国法律并未规定这项权利，但最大的AI开发商通常不会抓取付费墙以外的内容，也不会使用被网站robot.txt文件排除的内容。“你可能会认为，只要这是AI开发商们可以大规模处理的信号（“大规模处理的信号”指的是一种技术上可行的标记或指示，使得数据处理者能够在处理大量数据时有效地识别和遵循这种选择退出的请求），那他们就必须尊重这种拒绝（企鹅兰登书屋在其书籍中提到的拒绝）。”Sag 说。

美国数十家作者和媒体公司对谷歌、Meta、Microsoft、OpenAI和其他人工智能开发商提起诉讼，指控他们在受版权保护的作品上训练大型语言模型，违反了法律。科技公司辩称，他们的行为属于合理使用原则，即在某些情况下未经许可使用受版权保护的材料，例如，衍生作品对原始内容进行了实质性的转换、原作品被用于批评、新闻报道或教育。

将书籍用于大型语言模型的训练是否属于合理使用，美国法院尚未定论。有用户在社交媒体发帖，告知科技平台不要使用用户内容训练AI模型，预计平台不会听取建议。

企鹅兰登书屋的“不得用于AI训练”的信息与网上广泛传播的文本有点不同。社交媒体用户必须同意平台的服务条款，允许他们的内容用于训练 AI。而企鹅兰登书屋是一家富有的国际出版商，可以通过律师团队来保护其版权。

《书商》报告说，兰登书屋的新版权页面中，部分内容为：“本书的任何部分，都不得以任何方式，被用于训练人工智能技术或系统。根据《2019/790号数字单一市场指令》第4条第3款，企鹅兰登书屋明确指出，其作品不得用于文本和数据抓取。”

科技公司乐于在互联网上挖掘语言数据集，尤其是像Reddit这样的网站，但这些内容的质量往往很差——全是糟糕的建议、种族主义、性别歧视和其他主义，导致模型有偏见且不准确。AI研究人员说，对于写作和事实核查的高质量需求，书籍是模型最理想的训练数据之一。

如果兰登书屋能够成功保护其受版权保护的内容不被大型语言模型利用，那么这会对生成式AI行业产生重大影响，迫使开发人员开始为高质量的内容付费，对依赖免费使用他人作品的商业模式造成打击，有可能出现由低质量的互联网内容和过时发布的材料训练的模型。

“像企鹅兰登书屋这样的公司一样，拒绝AI使用其数据训练，可能会让一些作者称心如意，出于任何原因，他们也反对其作品被用作训练数据，也有一种可能，出版公司可以回过头来（开始）对训练数据收取许可费。”萨格说，“如果这就是我们将要面对的，那么人工智能公司将继续在‘开放的互联网’上进行训练，对于任何拥有相当数量文本的人而言，他们都会拒绝免费使用训练数据，开始收取费用。这似乎是一个非常好的折衷方案，出版商和网站可以获利，训练AI也不会有高昂的交易成本。”

原文链接

（机器翻译，轻度译后编辑，仅供参考。）

编辑：李旭媛

审校：章坚

Was it helpful ?

还有问题？我们能帮忙吗？