OpenAI回应版权诉讼：AI训练不必依赖新闻出版内容

在达沃斯世界经济论坛期间，OpenAI 首席执行官萨姆·阿尔特曼回应了有关版权争议的话题。他表示，人工智能模型的训练并不一定需要大量依赖新闻出版商提供的数据。

阿尔特曼提到，外界有一种看法认为，高质量 AI 系统必须建立在大量媒体内容之上，但他并不认同这种判断。他表示，公司并不希望以特定新闻机构的数据作为训练核心来源。

他还强调，OpenAI 的研究重点之一，就是探索如何利用更少但质量更高的数据，让模型学到更多能力。这意味着，提升模型效果并不完全取决于数据规模，也与训练方法和数据质量密切相关。

仍希望与出版商展开合作

尽管如此，OpenAI 仍在积极推动与新闻机构建立内容授权合作。此前有消息称，OpenAI 已与多家出版商就新闻内容授权进行接触，涉及多家知名媒体，公司内部也在推进多项潜在合作。

阿尔特曼表示，如果出版商愿意，OpenAI 仍然希望建立合作关系。他举例说，当用户询问“今天达沃斯发生了什么”这类问题时，相关产品可以直接向用户展示来自不同媒体的报道来源，例如某篇文章来自哪家媒体，从而形成更明确的信息引用与分发方式。

他同时指出，并非所有出版商都持相同态度：有些机构愿意合作，也有一些并不愿意。

这场讨论的背景，是《纽约时报》此前对 OpenAI 和微软提起的诉讼。该报在美国曼哈顿联邦地区法院起诉两家公司，称其未经许可使用了数百万篇文章训练 AI 模型，并认为这些模型生成的内容已经与其新闻内容形成直接竞争。

根据诉状，《纽约时报》认为，为 ChatGPT 提供支持的大语言模型不仅能够总结其报道内容，还可能生成接近原文的表述，甚至模仿其写作风格。这种情况在该报看来，会削弱其与读者之间的关系，并影响订阅、授权、广告及相关收入。

当前争议的核心在于两个问题：

从阿尔特曼的表态来看，OpenAI 一方面希望说明，先进 AI 模型的发展并不绝对依赖新闻出版商的数据；另一方面，也没有放弃与媒体行业达成授权合作的可能。

这场围绕训练数据、版权边界和内容授权的讨论，仍将继续影响 AI 公司与新闻出版行业之间的关系走向。