纽约时报起诉OpenAI与微软，要求毁灭关键训练数据

在OpenAI开发者日上，SaM AltMan曾宣布推出版权盾计划：当用户因AI生成内容遭遇侵权索赔时，OpenAI将为用户辩护并报销费用。

这一言论当时赢得了现场的热烈掌声，但没想到在11月，反转来临，OpenAI成了首个遭受炮火的对象。

当地时间周三，《纽约时报》正式向纽约联邦地方法院起诉OpenAI和微软，指控两家公司未经授权使用其数百万篇文章来训练GPT模型，进而开发包括ChatGPT和Copilot在内的AI产品。诉讼不仅要求对“非法复制和使用独特价值的作品”承担数十亿美元的法定和实际损害赔偿，还要求销毁所有包含NYT版权材料的模型及训练数据。

《纽约时报》在诉状中表示，其新闻报道是数千名记者辛勤付出的成果，雇佣这些记者的成本每年高达数亿美元。被告试图无偿利用《纽约时报》在新闻业务上巨额投资的成果，导致AI聊天机器人分流了原本集中于《纽约时报》的网络流量，从而窃取观众，造成广告、许可和订阅收入的损失。

诉状指出，这些AI模型对版权的无视威胁着高质量的新闻业：“如果时报和其他新闻机构无法制作及保护他们的独立新闻，将出现计算机或人工智能无法填补的真空，造成新闻数量减少，其社会代价将是巨大的。”

其实早在四月份，《纽约时报》就已与微软和OpenAI接触，表达了对其知识产权使用的担忧，并试图寻找“友好的解决方案”，建立商业协议和技术保护措施。可惜双方未能达成一致。而版权问题也曾在OpenAI前董事会成员Helen ToneR与奥特曼发生争执的论文中提及。

在收到起诉通知后，OpenAI发言人Lindsey Held在声明中表示，公司一直在与《纽约时报》“建设性地”对话，对诉讼感到“惊讶和失望”。

她表示：“我们尊重内容创作者和所有者的权利，并致力于与他们合作，确保他们能从AI技术和新型收入模式中受益。我们希望找到一种互惠互利的合作方式，正如OpenAI与许多其他出版商所做的那样。”

尽管《纽约时报》并非首个发起人工智能技术与书面作品版权争议的实体，但它无疑是迄今为止最大规模、最知名的出版商，也是第一家针对OpenAI提起诉讼的主流媒体。此消息迅速占据各大头条，引发广泛关注和强烈反响。

在自家报道中，NYT称此举“开启了关于未经授权使用出版作品训练大模型的法律战新阵地”。案件的判决结果将引导人工智能技术与版权法之间复杂的关系，并界定新兴法律的轮廓，成为生成式AI技术历史上的一个重要事件。

原文逐字照搬与虚假信息的捏造

在此次诉讼中，首先提到的是《纽约时报》文章与ChatGPT输出内容之间的“高度相似性”。

在GPT-3训练使用的最高权重数据集中，公共爬虫网站CoMMon CRawl中，www.nytiMes.coM这个域名是代表度最高的专有来源，仅次于维基百科和美国专利文件，总排名第三。CoMMon CRawl提供的2019年一个英文子集快照显示，《纽约时报》的内容占据了1亿个Tokens。

《纽约时报》还举了一个例子，证明ChatGPT在回答用户提问时，几乎原文照搬了其文章内容。

下图左侧是GPT-4的输出内容，右侧则来自《纽约时报》。红字标出的部分完全一致，仅有细微的用词差别。

NYT表示，这些内容来自2019年一篇报道，基于对纽约市出租车行业掠夺性贷款事件为期18个月的调查，经过600多次采访、100多次信息公开申请和几千页内部银行记录创作而成，曾获普利策新闻奖。

因此，这不仅是对文章本身的讨论，更涉及到原创性和创作过程。版权保护的不仅是劳动，还有创造力。

另一个例子显示，ChatGPT通过集成的Bing网页浏览插件，输出未经《纽约时报》授权的版权作品。这些合成搜索结果基于2023年4月之后的网络信息。图片显示，用户简单提示后，复制了2023年5月的文章《The PRecaRioUS, TeRRifying HouRs AfteR a WoMan Was ShOVed Into a TRAIn》的前两段。

微软Bing Chat同样在提示下直接输出了付费版权内容。

当询问关于“NYT旗下网站WiRecutteR 2023年最佳无绳直立式吸尘器”的文章时，Bing Chat列出了WiRecutteR推荐的三款吸尘器，并直接复制了大量原文内容。

诉讼中提到：“这些输出的原始WiRecutteR文章内容远比传统搜索结果中显示的丰富得多。不同于传统的搜索结果，这里没有包含明显的超链接，严重影响了WiRecutteR的流量。”

在回应“WiRecutteR对最佳办公椅推荐”的查询时，GPT-4不仅复制了WiRecutteR的前四个推荐，还推荐了“La-Z-Boy TRaFFoRd BIg &aMp; Tall Executive ChAIR”和“Fully Balans ChAIR”，但这两款产品并未出现在WiRecutteR的推荐列表中。

《纽约时报》称，“用户依赖WiRecutteR提供高质量、经过深入研究的推荐，而这些虚假信息严重损害了WiRecutteR品牌。”

此外，BIng Chat还提供过一个号称来自《纽约时报》的“15种最有益心脏健康的食物”的回答，但其中12种食物并未在该报文章中提及。诉讼强调媒体品牌可能因AI“幻觉”捏造的不实信息而遭受潜在损害。

多方观点热议

此案因知识版权与AI技术、人类学习与机器训练之间的界限模糊而引发了不同看法。

支持OpenAI的网友表示：“GPT的回答难道不是取决于输入提示吗？如果用户输入‘这里有一篇《纽约时报》的文章，请只做微小的更改。’然后他们复制粘贴了那篇文章呢？”

“你说没有参考文献？通常情况下，当我看到ChatGPT提供这样的答案时，它都会像搜索引擎一样提供源材料的参考。无论如何，这绝对是让《纽约时报》的信息在未来被排除的绝佳方式。”

“为什么新闻业会是公共利益的一部分，而基于人类积累知识训练的AI模型却不是呢？从各个意图和目的来看，ChatGPT可以充当高中或大学学生的私人导师……而《纽约时报》显然只是在追求金钱……”

还有人反驳：“人工智能不是在与人类做一样的事情吗——从各种资源中收集信息并输出答案？”

这一观点被驳斥：“不同之处在于，人不是一个盈利产品。”

“OpenAI绕过了付费墙，并从被盗取的数据中获利，这是典型的版权侵权行为。人类不会复制粘贴整个《纽约时报》的段落并要求收费。艺术家让人“记住”作品并根据记忆重新绘画，与让摄影师拍摄一幅艺术作品的200MP图像并分发该图像，是有区别的。”

[[[IMG_10]]}

我们知道大模型不会分辨信息来源，也不会真的去“读”内容，而是根据提供的训练集形成注意力机制输出结果，因此不存在“抄袭”。

支持《纽约时报》的网友认为，此次诉讼关注的是大型语言模型的输入，而非学习过程和输出。关注点并不在输出的风格是否与原作者或艺术家过于相似，而在于版权作品是否应该（或如何）被纳入训练数据集。

不过，YC现任掌门人GaRy Tan也力挺OpenAI，转发了一篇批评NYT的文章，并表示“《纽约时报》对OpenAI的诉讼是愚蠢的，是由不太懂版权法的人撰写的，且可能使《纽约时报》面临被起诉的风险。”

不论如何，各界普遍认为这是一个值得深入探讨的案例，对未来生成式AI的发展将产生重大影响。“这将是与AI和人类生成数据相关的重要诉讼之一，案件的结果将对其他新闻和媒体公司造成重大影响。”

此外，除了OpenAI，许多AI产品也在使用CoMMon CRawl的数据集进行训练，诉讼结果可能会影响整个AI行业。如果《纽约时报》胜诉，可能会改变行业格局。

ad

近期文章

互联网资讯 / 人工智能 · 2024年3月6日

纽约时报起诉OpenAI与微软，要求毁灭关键训练数据

You may also like...

互联网资讯 / 人工智能 · 2024年3月6日

You may also like...

2023年国外VPS推荐，优惠实惠又高性价比

镶嵌劳力士iPhone14Pro售价93万 全球限量3部

上半年净利润增长30%，新增注册用户超1.3亿

镶嵌劳力士iPhone14Pro售价93万全球限量3部