在达沃斯世界经济论坛期间,OpenAI 首席执行官萨姆·阿尔特曼回应了有关版权争议的话题。他表示,人工智能模型的训练并不一定需要大量依赖新闻出版商提供的数据。
阿尔特曼提到,外界有一种看法认为,高质量 AI 系统必须建立在大量媒体内容之上,但他并不认同这种判断。他表示,公司并不希望以特定新闻机构的数据作为训练核心来源。
他还强调,OpenAI 的研究重点之一,就是探索如何利用更少但质量更高的数据,让模型学到更多能力。这意味着,提升模型效果并不完全取决于数据规模,也与训练方法和数据质量密切相关。
仍希望与出版商展开合作
尽管如此,OpenAI 仍在积极推动与新闻机构建立内容授权合作。此前有消息称,OpenAI 已与多家出版商就新闻内容授权进行接触,涉及多家知名媒体,公司内部也在推进多项潜在合作。
阿尔特曼表示,如果出版商愿意,OpenAI 仍然希望建立合作关系。他举例说,当用户询问“今天达沃斯发生了什么”这类问题时,相关产品可以直接向用户展示来自不同媒体的报道来源,例如某篇文章来自哪家媒体,从而形成更明确的信息引用与分发方式。
他同时指出,并非所有出版商都持相同态度:有些机构愿意合作,也有一些并不愿意。
诉讼背景
这场讨论的背景,是《纽约时报》此前对 OpenAI 和微软提起的诉讼。该报在美国曼哈顿联邦地区法院起诉两家公司,称其未经许可使用了数百万篇文章训练 AI 模型,并认为这些模型生成的内容已经与其新闻内容形成直接竞争。
根据诉状,《纽约时报》认为,为 ChatGPT 提供支持的大语言模型不仅能够总结其报道内容,还可能生成接近原文的表述,甚至模仿其写作风格。这种情况在该报看来,会削弱其与读者之间的关系,并影响订阅、授权、广告及相关收入。
争议核心
当前争议的核心在于两个问题:
AI 模型训练是否可以使用受版权保护的新闻内容;
如果使用,是否需要事先获得授权并向内容提供方支付费用。
从阿尔特曼的表态来看,OpenAI 一方面希望说明,先进 AI 模型的发展并不绝对依赖新闻出版商的数据;另一方面,也没有放弃与媒体行业达成授权合作的可能。
这场围绕训练数据、版权边界和内容授权的讨论,仍将继续影响 AI 公司与新闻出版行业之间的关系走向。
