人工智能的进步表明,通过构建多层深度网络并利用大量数据进行学习,可以显著提升性能。然而,这些进展主要集中在感知任务上,而对于认知任务,传统的人工智能范式亟需扩展。
在4月9日的论坛上,罗格斯大学计算机科学系助理教授王灏分享了一种新的基于贝叶斯的概率框架,旨在统一深度学习与概率图模型,并协调AI的感知与推理任务。
该框架包含两个模块:深度模块,以概率型的深度模型表示;图模块,即概率图模型。深度模块专注于处理高维信号,而图模块则专注于处理推理任务。
以下是演讲的整理内容:
今天我将分享有关贝叶斯深度学习的研究,主题是我们试图通过概率框架来统一深度学习、概率图模型及AI的感知与推理任务。
众所周知,深度学习赋能的AI技术已经具备一定的视觉能力(物体识别)、阅读能力(文本理解)和听觉能力(语音识别),但在思考能力方面仍显不足。
“思考”指的是推理和推断任务,具体涉及复杂关系的处理,包括条件概率和因果关系。
尽管深度学习在感知任务中表现出色,但推理任务则需要更高层次的智能,例如决策分析和逻辑推理。概率图模型由于能够自然地表示变量之间的复杂关系,因此在处理推理任务时具有优势。

如上图所示,我们的任务是:通过了解草地上喷头的开关状态以及外部天气来推断草地被打湿的概率,或反向推断天气状况。概率图模型的缺点在于其处理高维数据的效率较低。

总结而言,深度学习擅长感知类任务,而推理和推断任务则是概率图模型的强项,但这两者在实际应用中往往是交织在一起的。因此,我们希望能够将深度学习与概率图模型整合成一个统一的框架,以兼顾两者的优势。

我们提出的框架被称为贝叶斯深度学习,包含两个模块:深度模块(采用概率型深度模型表示)和图模块(即概率图模型)。深度模块负责处理高维信号,图模块则负责推理任务。
需要强调的是,图模块本质上是概率型的模型,因此深度模型也需采用概率型以确保相互融合。模型的训练可以使用经典算法,如MAP、MCMC和变分推断(VI)。

例如,在医疗诊断中,深度模块可以视为医生在分析病人的医疗图像,图模块则是医生根据这些图像进行推理的过程。医生通过对生理信号的理解,能够更好地解读医疗图像。

在电影推荐系统中,深度模块可以理解为对电影情节、演员等内容的解析,而图模块则建模用户偏好与电影之间的相似性。视频内容的理解与用户偏好的建模也是相辅相成的。

具体来说,我们将概率图模型的变量划分为三类:深度变量(属于深度模块,假设源于简单的概率分布)、图变量(属于图模块,与深度模块无直接联系,假设源于复杂的分布)、以及枢纽变量(连接深度模块与图模块的部分)。
以下是该框架在实际应用中的效果展示。
推荐系统
推荐系统的基本假设是:已知用户对某些电影的喜好,进而预测用户对其他电影的偏好。

用户对电影的喜好可以表示为评分矩阵(Rating Matrix),该矩阵通常非常稀疏,直接建模的准确性较低。在推荐系统中,我们需要依赖更多信息,如电影情节、导演和演员信息进行辅助建模。
为了有效建模内容信息并进行提纯,有三种方法可供选择:手动建立特征、深度学习全自动建立特征、采用深度学习自适应建立特征。显然,自适应方式能够取得最佳效果。
然而,深度学习固有的独立同分布假设对推荐系统而言是一个严重问题,因为该假设错误地认为用户之间没有关联。

为了解决这一问题,我们提出了协同深度学习,可以将“独立”推广到“非独立”的情境。该模型面临两个挑战:
1. 如何找到有效的概率型深度模型作为深度模块,使其与图模块兼容,并在效果上不逊色于非概率型模块。
2. 如何将深度模块有效连接到主模块中,进行有效建模。

首先来看第一个挑战。自编码器是常见的深度学习模型,通常用于非监督学习中提取特征,其输出为确定性的中间表示,这与图模块不兼容,无法发挥作用。

我们提出了概率型自编码器,区别在于其输出由“确定的向量”转变为“高斯分布”。概率型自编码器可以退化为标准自编码器,因此后者也是前者的一个特例。

如何将深度模块与图模块联系起来?我们从高斯分布中提取物品j的隐向量:

然后从高斯分布中提取用户i的隐向量:

上图的蓝框表示图模块,定义了物品、用户、评分等之间的条件概率关系。一旦建立了条件概率关系,就能通过评分反推用户和物品的隐向量,并根据“内积”预测未知的背景。

上图展示了整个模型的结构,其中λ是控制高斯分布方差的超参数。为了评估模型效果,我们使用了三个数据集:cITeulike-a、cITeulike-t和Netflix。cITeulike数据集使用每篇论文的标题和摘要,而Netflix则使用电影情节介绍作为内容信息。
[[[IMG_15]]
实验结果如下,Recall@M指标显示我们的方法显著超越基准模型。在评分矩阵更为稀疏的情况下,我们模型的性能提升更为明显。这是因为矩阵越稀疏,模型越依赖内容信息及其提取的表示。
[[[IMG_16]]
