互联网资讯 / 人工智能 · 2024年3月6日

纽约时报起诉OpenAI与微软,要求毁灭关键训练数据

在OpenAI开发者日上,SaM AltMan曾宣布推出版权盾计划:当用户因AI生成内容遭遇侵权索赔时,OpenAI将为用户辩护并报销费用。

这一言论当时赢得了现场的热烈掌声,但没想到在11月,反转来临,OpenAI成了首个遭受炮火的对象。

当地时间周三,《纽约时报》正式向纽约联邦地方法院起诉OpenAI和微软,指控两家公司未经授权使用其数百万篇文章来训练GPT模型,进而开发包括ChatGPT和Copilot在内的AI产品。诉讼不仅要求对“非法复制和使用独特价值的作品”承担数十亿美元的法定和实际损害赔偿,还要求销毁所有包含NYT版权材料的模型及训练数据。

《纽约时报》在诉状中表示,其新闻报道是数千名记者辛勤付出的成果,雇佣这些记者的成本每年高达数亿美元。被告试图无偿利用《纽约时报》在新闻业务上巨额投资的成果,导致AI聊天机器人分流了原本集中于《纽约时报》的网络流量,从而窃取观众,造成广告、许可和订阅收入的损失。

诉状指出,这些AI模型对版权的无视威胁着高质量的新闻业:“如果时报和其他新闻机构无法制作及保护他们的独立新闻,将出现计算机或人工智能无法填补的真空,造成新闻数量减少,其社会代价将是巨大的。”

关乎AI生死的诉讼!纽约时报要求OpenAI销毁其“盗用”的最重要训练数据

其实早在四月份,《纽约时报》就已与微软和OpenAI接触,表达了对其知识产权使用的担忧,并试图寻找“友好的解决方案”,建立商业协议和技术保护措施。可惜双方未能达成一致。而版权问题也曾在OpenAI前董事会成员Helen ToneR与奥特曼发生争执的论文中提及。

在收到起诉通知后,OpenAI发言人Lindsey Held在声明中表示,公司一直在与《纽约时报》“建设性地”对话,对诉讼感到“惊讶和失望”。

她表示:“我们尊重内容创作者和所有者的权利,并致力于与他们合作,确保他们能从AI技术和新型收入模式中受益。我们希望找到一种互惠互利的合作方式,正如OpenAI与许多其他出版商所做的那样。”

尽管《纽约时报》并非首个发起人工智能技术与书面作品版权争议的实体,但它无疑是迄今为止最大规模、最知名的出版商,也是第一家针对OpenAI提起诉讼的主流媒体。此消息迅速占据各大头条,引发广泛关注和强烈反响。

在自家报道中,NYT称此举“开启了关于未经授权使用出版作品训练大模型的法律战新阵地”。案件的判决结果将引导人工智能技术与版权法之间复杂的关系,并界定新兴法律的轮廓,成为生成式AI技术历史上的一个重要事件。

关乎AI生死的诉讼!纽约时报要求OpenAI销毁其“盗用”的最重要训练数据

原文逐字照搬与虚假信息的捏造

在此次诉讼中,首先提到的是《纽约时报》文章与ChatGPT输出内容之间的“高度相似性”。

在GPT-3训练使用的最高权重数据集中,公共爬虫网站CoMMon CRawl中,www.nytiMes.coM这个域名是代表度最高的专有来源,仅次于维基百科和美国专利文件,总排名第三。CoMMon CRawl提供的2019年一个英文子集快照显示,《纽约时报》的内容占据了1亿个Tokens。

关乎AI生死的诉讼!纽约时报要求OpenAI销毁其“盗用”的最重要训练数据

《纽约时报》还举了一个例子,证明ChatGPT在回答用户提问时,几乎原文照搬了其文章内容。

下图左侧是GPT-4的输出内容,右侧则来自《纽约时报》。红字标出的部分完全一致,仅有细微的用词差别。

关乎AI生死的诉讼!纽约时报要求OpenAI销毁其“盗用”的最重要训练数据

NYT表示,这些内容来自2019年一篇报道,基于对纽约市出租车行业掠夺性贷款事件为期18个月的调查,经过600多次采访、100多次信息公开申请和几千页内部银行记录创作而成,曾获普利策新闻奖。

因此,这不仅是对文章本身的讨论,更涉及到原创性和创作过程。版权保护的不仅是劳动,还有创造力。

另一个例子显示,ChatGPT通过集成的Bing网页浏览插件,输出未经《纽约时报》授权的版权作品。这些合成搜索结果基于2023年4月之后的网络信息。图片显示,用户简单提示后,复制了2023年5月的文章《The PRecaRioUS, TeRRifying HouRs AfteR a WoMan Was ShOVed Into a TRAIn》的前两段。

关乎AI生死的诉讼!纽约时报要求OpenAI销毁其“盗用”的最重要训练数据

微软Bing Chat同样在提示下直接输出了付费版权内容。

关乎AI生死的诉讼!纽约时报要求OpenAI销毁其“盗用”的最重要训练数据

当询问关于“NYT旗下网站WiRecutteR 2023年最佳无绳直立式吸尘器”的文章时,Bing Chat列出了WiRecutteR推荐的三款吸尘器,并直接复制了大量原文内容。

关乎AI生死的诉讼!纽约时报要求OpenAI销毁其“盗用”的最重要训练数据

诉讼中提到:“这些输出的原始WiRecutteR文章内容远比传统搜索结果中显示的丰富得多。不同于传统的搜索结果,这里没有包含明显的超链接,严重影响了WiRecutteR的流量。”

在回应“WiRecutteR对最佳办公椅推荐”的查询时,GPT-4不仅复制了WiRecutteR的前四个推荐,还推荐了“La-Z-Boy TRaFFoRd BIg &aMp; Tall Executive ChAIR”和“Fully Balans ChAIR”,但这两款产品并未出现在WiRecutteR的推荐列表中。

《纽约时报》称,“用户依赖WiRecutteR提供高质量、经过深入研究的推荐,而这些虚假信息严重损害了WiRecutteR品牌。”

此外,BIng Chat还提供过一个号称来自《纽约时报》的“15种最有益心脏健康的食物”的回答,但其中12种食物并未在该报文章中提及。诉讼强调媒体品牌可能因AI“幻觉”捏造的不实信息而遭受潜在损害。

多方观点热议

此案因知识版权与AI技术、人类学习与机器训练之间的界限模糊而引发了不同看法。

支持OpenAI的网友表示:“GPT的回答难道不是取决于输入提示吗?如果用户输入‘这里有一篇《纽约时报》的文章,请只做微小的更改。’然后他们复制粘贴了那篇文章呢?”

“你说没有参考文献?通常情况下,当我看到ChatGPT提供这样的答案时,它都会像搜索引擎一样提供源材料的参考。无论如何,这绝对是让《纽约时报》的信息在未来被排除的绝佳方式。”

“为什么新闻业会是公共利益的一部分,而基于人类积累知识训练的AI模型却不是呢?从各个意图和目的来看,ChatGPT可以充当高中或大学学生的私人导师……而《纽约时报》显然只是在追求金钱……”

还有人反驳:“人工智能不是在与人类做一样的事情吗——从各种资源中收集信息并输出答案?”

关乎AI生死的诉讼!纽约时报要求OpenAI销毁其“盗用”的最重要训练数据

这一观点被驳斥:“不同之处在于,人不是一个盈利产品。”

关乎AI生死的诉讼!纽约时报要求OpenAI销毁其“盗用”的最重要训练数据

“OpenAI绕过了付费墙,并从被盗取的数据中获利,这是典型的版权侵权行为。人类不会复制粘贴整个《纽约时报》的段落并要求收费。艺术家让人“记住”作品并根据记忆重新绘画,与让摄影师拍摄一幅艺术作品的200MP图像并分发该图像,是有区别的。”

[[[IMG_10]]}

我们知道大模型不会分辨信息来源,也不会真的去“读”内容,而是根据提供的训练集形成注意力机制输出结果,因此不存在“抄袭”。

支持《纽约时报》的网友认为,此次诉讼关注的是大型语言模型的输入,而非学习过程和输出。关注点并不在输出的风格是否与原作者或艺术家过于相似,而在于版权作品是否应该(或如何)被纳入训练数据集。

不过,YC现任掌门人GaRy Tan也力挺OpenAI,转发了一篇批评NYT的文章,并表示“《纽约时报》对OpenAI的诉讼是愚蠢的,是由不太懂版权法的人撰写的,且可能使《纽约时报》面临被起诉的风险。”

不论如何,各界普遍认为这是一个值得深入探讨的案例,对未来生成式AI的发展将产生重大影响。“这将是与AI和人类生成数据相关的重要诉讼之一,案件的结果将对其他新闻和媒体公司造成重大影响。”

此外,除了OpenAI,许多AI产品也在使用CoMMon CRawl的数据集进行训练,诉讼结果可能会影响整个AI行业。如果《纽约时报》胜诉,可能会改变行业格局。