互联网资讯 / 人工智能 · 2023年10月28日 0

AI编辑系统用于更新、纠错和辨别虚假新闻

维基百科作为一部开放的在线百科全书,依赖于大量志愿者的努力,以确保每个条目保持最新状态。尽管志愿者数量众多,但在每天数以千计的页面需要更新的情况下,维持信息的准确性仍然是一项艰巨的任务。

最近,麻省理工学院的研究团队推出了一种新的人工智能系统,旨在自动更新在线百科全书中的不准确内容,从而为人类编辑提供支持。

该项目的博士生 DaRsh Shah 表示,维基百科的文章需要频繁更新,这通常需要数百人进行修订,而 AI 的介入能够自动完成这些任务,显著提升了效率。

研究团队开发了一种文本处理系统,可以精确识别并替换维基百科文章中的特定信息,采用与人类相似的写作与编辑风格。

当用户在界面输入带有更新信息的非结构化句子时,AI 会搜索维基百科中的相关页面,找到过时的信息,并以类似人类的语言风格进行更新。

虽然之前已有多种机器人可以执行维基百科的自动编辑,但 Shah 指出,这些工具往往基于固定规则,将狭义信息填入预先设定的模板中。而编辑工作更需要对两个句子中存在的矛盾进行推理,然后生成连贯的文本。研究者的模型解决了这一问题,通过输入非结构化信息,模型可以人性化地自动修改句子。

AI 识别矛盾信息

对于机器学习来说,识别两个句子间的矛盾并将其合并是一项新挑战,而人类则相对较为轻松。

例如,原句为:基金 A 认为活跃运营公司中的 42 种少数股权中有 28 种对集团特别重要,而更新的信息则为:基金 A 认为 43 个少数股权中有 23 个意义重大。

系统将首先找到有关基金 A 的维基百科文本,随后自动去除过时的数字 28 和 42,并用新信息 23 和 43 进行替换。

该系统在包含句子对的流行数据集上进行训练,每对句子被标记为三类:同意、不同意和中性,分别表示句子匹配、存在矛盾或没有足够信息。

系统的目标是更新所有过时的句子,确保所有不一致的句子对达到同意。这需要使用独立模型生成所需的输出。

该模型充当事实检查分类器,提前将每个句子对标记为同意、不同意或中立,特别关注不同意的句子对。与分类器配合使用的是一个中性屏蔽器模块,能够识别过时句子中与声明相矛盾的词汇。它会在过时句子上创建一个二进制掩码,标记需要删除的词为 0,保留的词为 1。

在屏蔽之后,使用两个编码器-解码器框架对要删除的单词进行信息融合,从而填补空白。

与其他传统文本生成方法相比,该模型在更新事实信息时更为准确,其输出更接近于人类的写作风格。在一项测试中,研究人员根据模型输出句子的事实更新和语法匹配程度进行评分,结果显示模型在事实更新上平均得分为 4,语法匹配得分为 3.85,优于其他所有传统方法。

研究者希望,未来的 AI 能够自动完成整个更新过程,这意味着它可以在线查找某个主题的最新信息,并自动更新维基百科上过时的内容。

扩充数据集,消除误差

研究还表明,在训练假新闻检测器时,该系统可用于增强数据集以消除偏见。

假新闻是一种包含虚假信息的宣传形式,旨在误导读者或操控公众舆论。这些检测器在同意-不同意的数据集上进行训练,通过与维基百科上的支持证据进行匹配来验证信息的真实性。模型经过训练后,通过反驳证据来标记句子为假,从而帮助识别假新闻。

然而,数据集常常会带有意外的偏差。Shah 指出,在训练过程中,模型可能会根据人类的书写习惯将某些语言标记为假例,而不充分依赖相应的证据。这会降低模型在评估实际示例时的准确性,因为其未执行事实检查。

因此,研究人员采用相同的删除和融合技术,来平衡数据集中的不同意对,帮助减轻偏见。在某些不同意对中,他们使用修改后的句子中的虚假信息重新生成伪造证据支持句子,以便模型能分析更多特征,从而扩充数据集。

通过这一方法,研究人员将一种流行的假新闻检测器的错误率降低了 13%。

维基百科部署 AI 编辑

早在 2015 年,维基百科便建立了一个人工智能引擎,旨在自动分析维基百科的更改。

由于任何人都可以编辑维基百科,因此也可能出现错误添加虚假信息的情况,早期维基百科建立了严格的审查机制,阻止了许多人参与编辑。

HalFAkeR 是维基百科的一位资深研究科学家,他开发了自己的 AI 引擎,以识别这种破坏行为,并以更友好的方式吸引新手参与。他承认,虽然该服务无法捕获所有破坏行为,但能够识别大多数情况。

HalFAkeR 的项目旨在增加人们对维基百科的参与,而在五年后的今天,新的文本系统的出现可以自动更新信息,从而大幅减轻志愿编辑者的工作负担。

随着机器智能的不断提升,自动化替代人类工作的现象日益普遍,关于人类是否会被机器取代也成为热门话题。有预测称,未来 20 年内,AI 和机器人技术可能替代多达 47% 的工作,但也有观点认为 AI 会创造大量新岗位。

未来的局势谁也无法预料,能做的只有把握当下。