互联网资讯 / 人工智能 · 2023年12月19日

数据驱动方法与机器学习在NLU与NLP中的不同之处分析

自然语言理解是人工智能研究中的一个重要领域,被广泛认为是最具挑战性和标志性的任务之一。尽管近年来机器学习技术得到了广泛应用,但在解决自然语言理解问题上却效果有限,这背后有多种原因。

数据驱动方法与机器学习在NLU与NLP中的不同之处分析

20世纪90年代初,统计学的变革逐渐取代了传统的人工智能方法,并在2000年达到了巅峰,随后神经网络借助深度学习的崛起重新获得关注。这一经验主义的转变影响了人工智能的所有领域,其中自然语言处理(NLP)是一个备受争议的应用领域。

在NLP中,数据驱动的方法之所以广泛应用,主要是因为符号和逻辑方法在经历了三十年的主导地位后,未能产生可扩展的NLP系统,导致了所谓经验方法(EMNLP)的兴起。这些方法结合了基于数据、语料库、统计和机器学习的技术。

转向经验主义的动机十分明确:在我们全面理解语言如何运作以及语言如何与日常知识关联之前,依赖经验和数据驱动的方法有助于构建文本处理应用。

数据驱动方法与机器学习在NLU与NLP中的不同之处分析

EMNLP会议的创始人之一是Kenneth Church。

然而,这一趋势存在误导性,导致了一个不幸的局面:过于依赖大型语言模型构建NLP系统,这需要庞大的计算资源,并试图通过存储大量数据来模拟自然语言。这种方法不仅浪费了时间和资源,还可能误导年轻研究者,错误地认为语言只不过是数据。更糟的是,这种做法阻碍了自然语言理解的进步。

因此,现在需要重新审视自然语言理解的方法。对于NLU来说,依赖大数据的方法在心理上、认知上甚至计算上都是不切实际的,盲目的数据驱动方法在理论和技术上也存在缺陷。

自然语言处理与自然语言理解

尽管自然语言处理与自然语言理解常常被混用,但二者之间存在显著差异,明确这些差异至关重要。

这两项任务遵循PAC(PRobably ApProxiMately CoRRect,可能近似正确)范式。具体而言,NLP系统的输出评估是主观的:没有客观标准来判断一个摘要是否优于另一个,或某一系统提取的主题是否比其他系统更好。然而,自然语言理解不允许这种自由度。要完全理解一段话或问题,必须 grasp 说话者所表达的唯一思想。

例如,是否有一位退休的BBC记者在冷战期间驻扎在东欧国家?

在数据库中,对这个查询只有一个正确答案。将这一陈述转化为正确的SQL或SPARQL查询是一个巨大的挑战。关键在于:

对语义的理解不应是可能或大致正确,而必须是绝对正确的。换句话说,我们必须从多种可能的解释中提炼出唯一的含义,并根据常识推断提问者的真实意图。总之,真正理解自然语言与单纯的文本处理截然不同。在文本处理中,近似正确的结果通常是可以接受的。

缺失文本现象

缺失文本现象是NLP任务面临的核心挑战。语言交流的过程如下图所示:说话者将思想编码为语言表达,听者再将其解码为说话者想要传达的思想。

数据驱动方法与机器学习在NLU与NLP中的不同之处分析

图1:说者和听者的语言交流过程。

解码过程正是NLU中的关键,即理解语言背后的思想。在这个过程中不存在近似或自由度,只有一种表达的思想。解码时的“理解”必须准确捕捉这一思想,这也是NLU面临的挑战。

在这种复杂交流中,有两种可能的优化方案:(1)说话者压缩信息量,希望听者在解码时进行更多的推理;(2)说话者尽力传达所有必要信息,听者几乎不需额外工作。

随着交流的自然演变,这两种方案似乎达成了良好的平衡,使得说话者和听者的工作量得到了优化。这样的优化使得说话者能够编码尽可能少的信息,而忽略其他信息。遗漏的信息通常可以通过共享的背景知识来获取,这就是我们所称的普通背景知识。

为了理解这一过程的复杂性,可以参考以下示例:黄色框中的信息为未优化的信息,而绿色框中的信息则是量少但传达相同思想的文本信息。

数据驱动方法与机器学习在NLU与NLP中的不同之处分析

绿色框中的信息简洁许多,这正是我们日常交流的方式。通常来说,我们不会明确表达所有想传达的内容。

数据驱动方法与机器学习在NLU与NLP中的不同之处分析

也就是说,为了有效沟通,我们在交流中通常不会提及对方显然知道的信息。这就是我们倾向于忽略共同信息的原因,因为我们都意识到彼此的共享知识。在人类20万年的演化过程中,这种优化过程是极为有效的。然而,这正是NLU所面临的问题:机器无法识别缺失的信息,因为它不知道人类共享的知识。最终,这导致了NLU的困难:如果软件无法识别语言交流中隐含的所有遗漏信息,它便无法完全理解语言背后的思想。这才是真正的NLU挑战,而非解析、词干分析、词性标记或命名实体识别等。

数据驱动方法与机器学习在NLU与NLP中的不同之处分析

图2:NLU中的许多挑战源于缺失文本现象:图中缺失的文本(隐含假设)用红色标示。

上述示例表明,NLU的挑战在于发现缺失的信息,并隐含地认为这些信息是共享的背景知识。下图进一步阐释了缺失文本现象:

数据驱动方法与机器学习在NLU与NLP中的不同之处分析

以下是三个原因,解释为什么机器学习和数据驱动方法无法解决NLU问题。

机器学习方法与NLU无关:机器学习是压缩,语言理解需要解压缩

用机器实现自然语言理解极为复杂,因为我们日常交流中的信息往往高度压缩,而“理解”的挑战在于解压缩这些缺失的文本。这对人类来说很简单,但对机器而言却截然不同,因为机器不具备人类的知识背景。

研究者们在数学上已建立了可学习性与可压缩性之间的等价关系。也就是说,只有当数据高度可压缩时,才会出现可学习性,反之亦然。尽管证明这种关系相当复杂,但直观上很容易理解:可学习性关注的是在多维空间中找到一个函数以覆盖所有数据集信息。因此,当所有数据点都可以压缩成一个流形时,就会出现可学习性。然而,MTP表明,NLU是关于解压缩的。

数据驱动方法与机器学习在NLU与NLP中的不同之处分析

机器学习是将大量数据概括为单一函数。相反,由于MTP,自然语言理解需要智能的解压缩技术,以发现所有缺失的隐性假设文本。因此,机器学习与语言理解之间是不可调和的,实际上它们是相互矛盾的。

机器学习方法甚至与NLU无关:统计意义不大

机器学习本质上是一种基于数据发现模式的范式。研究者期望自然语言中各种现象在统计上存在显著差异。例如:

同义词与反义词(如小与大,开与关等)在上下文中出现的概率相同,因此在统计上(1a)与(1b)是等价的,而(1a)与(1b)所代表的内容却截然不同。

机器学习方法甚至与NLU无关:意向性

逻辑学家长期以来一直在研究一种名为“意向性”的语义概念。为了理解“意向性”,首先需要从所谓的语义三角(Meaning Triangle)开始。

数据驱动方法与机器学习在NLU与NLP中的不同之处分析

在语义三角中,每个“事物(或认知对象)”由三部分组成:一个指代的概念符号,以及这个概念(有时)具有的一些实例。在应用科学中,如果这些对象在值上相等,我们可以认为它们是相等的,但在认知中,这种等价关系并不存在。

总结而言,本文讨论了机器学习和数据驱动方法与NLU无关的三个原因。在传达思想时,我们所传递的是高度压缩的语言信息,需要人类的思维来解释和揭示所有缺失的隐含背景信息。在构建大型语言模型的过程中,机器学习和数据驱动方法的局限性愈加明显。