当一个经过训练于人类和鱼类照片的AI首次看到美人鱼的图片时,会产生怎样的反应呢?虽然它对人脸和鱼身都很熟悉,但对于这一全新事物,它却无法形成具体概念。最近,阿里巴巴达摩院通过引入因果推理方法到计算机视觉领域,试图突破机器学习的局限,使AI能够想象那些未曾见过的事物,这项研究的相关论文已被计算机视觉领域的顶级会议CVPR 2021接纳。

论文链接:
https://aRxiv.oRg/pdf/2103.00887.pdf
代码链接:
https://Github.coM/yue-zhongqi/gcM-cf
计算机视觉(CV)是研究机器如何“看”的科学,旨在通过将非结构化的图像和视频数据转化为结构化特征,使AI理解视觉信息。随着深度学习的普及,AI在许多计算机视觉任务中超越了人类,但相比于人类复杂的视觉理解能力,AI仍显得非常“低维”。
对人类来说,通过已知的人和鱼的形象去想象美人鱼是轻而易举的,而AI则可能将美人鱼混淆归类为“人”或“鱼”。由于AI缺乏“想象”这种高级认知能力,当前的机器学习技术本质上是通过观察数据进行拟合,导致AI只能识别训练中见过的对象,一旦遇到超出训练数据的事物,容易陷入“人工智障”的境地。
图灵奖得主、因果关系算法创始人朱迪·珀尔认为,人类的想象力源自我们天生具备的因果推理能力。人类之所以能提出“为什么”,便是为了探寻事物之间的因果关系。通过这种认知系统,我们能够用“小数据”处理现实世界的无限“大任务”。而AI只能依赖“大数据”来完成“小任务”,如果AI能够掌握因果推理,或许能够突破“智商天花板”,迈向强人工智能的未来。
因果推理理论对研究者们产生了深远的启发,结合机器学习的研究也日益受到关注。在工业界,达摩院城市大脑实验室率先将因果推理方法应用于计算机视觉,利用因果推理模型提升机器学习模型的智能水平。今年,该团队与南洋理工大学合作发表的《反事实的零次和开集识别》论文等三篇采用因果推理方法的研究,均被CVPR 2021收录。

左侧为现有方法的AI“想象”结果,中间为达摩院论文提出的算法核心,右侧为基于达摩院框架的想象结果。在这三幅图中,红色代表训练集中的样本,蓝色为AI未见过的类别样本,绿色则为AI对未见类别的想象。
零次学习指的是让机器对未见过的对象类别进行分类,而开集识别要求机器能够将未见类别标记为“未知”,这两个任务都依赖于想象能力。《反事实的零次和开集识别》提出了一种基于反事实的算法框架,通过解耦样本特征(如对象姿势)和类别特征(如是否有羽毛),并在样本特征的基础上进行反事实生成。在常用数据集上,该算法的准确率超出目前顶尖方法2.2%至4.3%。论文的作者岳中琪表示,AI认知智能的进化才刚刚开始,相关领域的探索仍处于早期阶段,未来他们将不断提升和优化相关算法。
城市大脑实验室指出,数据驱动的机器学习模型普遍面临数据不均衡的问题,例如在城市中,信息通常呈现长尾分布,正常信息量庞大,而交通事故、车辆违规等异常信息发生概率极小,样本稀缺。尽管可以通过增加少见样本来部分解决此问题,但成本高且效率低。
基于自研算法,仅使用正常信息样本,AI便能够获得无偏见的异常检测结果。一旦出现紧急情况,例如某辆车与行人间发生异常交互,城市大脑将能够实时识别并反馈信息,而无需假装无知或视而不见。这一技术未来有望应用于城市基础视觉算法体系的优化、极少样本城市异常事件感知能力的提升,以及多模态语义搜索和智能图文生成等领域。
CVPR是计算机视觉领域三大顶级会议之一,CVPR 2021会议将于6月19日至25日在线举行。今年大会共收录论文1663篇,接受率为27%。阿里巴巴集团入选论文41篇,是2020年的2.6倍。
接下来,论文《反事实的零次和开集识别》的第一作者岳中琪将对该论文进行解析。
《反事实的零次和开集识别》论文解析
在现有的零次学习和开集识别中,见过和未见过类别的识别率严重失衡。我们发现这种失衡是由于对未见类别样本失真的想象所致。因此,我们提出了一种反事实框架,通过基于样本特征的反事实生成来保持保真度,在各个评估数据集上取得了稳定的提升。这项工作的主要优势在于:
我们提出的GCM-CF是一个可用于见过/未见过类别的二元分类器,分类后可适用于任何监督学习(在见过类别上)和零次学习算法(在未见过类别上);
我们提出的反事实生成框架适用于各种生成模型,如基于VAE、GAN或Flow的模型;
我们提供了一种易于实现的两组概念间解耦的算法。
接下来我将具体介绍我们所针对的任务、提出的框架及对应的算法。
零次学习和开集识别

许多人都认识羚羊和貘这两种动物(如上图所示),那么一只鼻子像貘的羚羊长什么样呢?大家可能能想象出一个类似图右的动物(它叫高鼻羚羊)。在这个过程中,我们实际上正在进行零次学习(Zero-Shot Learning, ZSL):尽管我们没见过高鼻羚羊,但通过对羚羊和貘的已有知识,我们能够想象出这个未见类别的样子,这正是人类快速学习的一个重要原因。

再来看一个路牌的例子,我们很容易认出左侧的两个路牌是熟悉的,而右侧的则是一个陌生的路牌。人类能够轻松完成这种开集识别(Open-Set Recognition, OSR),因为我们不仅熟悉见过的样本,也具备对未知世界的认知能力,使我们能够识别见过类别与未见类别之间的界限。

在机器学习中,这两个任务的定义如上图所示。零次学习的训练集提供类别集合S。对于上面的图片,除了每张图片的类别标签,每个类别还附有一个描述该类别特征的属性特征(如有翅膀、圆脸等)。在测试时,有两种设定:在常规ZSL下,测试集中的图片全部来自未见类别U(S∩U=∅),并且测试时会给定U类别的密集标签。而在广义ZSL下,测试集中将包含来自S和U的图片。开集识别的训练集则与普通监督学习相同,只是在测试时会出现训练中未见过的类别样本。分类器需不仅正确识别见过的类别,还要将未见的类别标记为“未知”。

目前ZSL和OSR的主要方法多基于生成模型,例如在ZSL中使用未见类别的属性特征生成图片,然后在图像空间中进行比较。然而,生成模型通常会自然倾向于已见的训练集,导致对未见类别的想象失真(这实际上是因为属性特征的纠缠,这里不作详细展开,大家可以参考相关论文)。例如,在训练时见过大象的长鼻子,而在想象未见的貘的长鼻子时,可能会将其想象成大象的鼻子。左侧的图展示了这种失真:红色为训练集中样本,蓝色为真实的未见类别样本,绿色为现有方法对未见类别的想象,这些想象已偏离样本空间,既不似见过的类别,也不似未见的类别(绿色点偏离了蓝色和红色的点)。这便解释了为何见过类别和未见类别的识别率会失衡:使用绿色和红色样本训练的分类器(黑色虚线)牺牲了未见类别的召回率以提高见过类别的召回率。
反事实生成框架
那么,如何在想象时保持真实性呢?我们可以思考人类的想象过程:在想象一种古代生物的样子时,我们会基于其化石骨架(图左);在想象动画世界的场景时,我们会参考现实世界(图右)。这些想象的本质实际上是一种反事实推理(Counterfactual Inference),即给定这样的化石(Fact),如果它还活着(Counterfact),会是什么样子?给定现实世界的某个场景,如果这个场景被放入动画世界,它又会呈现怎样的样子?我们的想象,建立在事实的基础上,自然显得合情合理,而非凭空想象。

那么在ZSL和OSR中,是否可以利用反事实生成合理的想象呢?我们首先为这两个任务构建了一个基于因果的生成模型(Generative Causal Model,GCM),假设观察到的图片X是由样本特征Z(与类别无关,如物体的姿态等)和类别特征Y(如是否有羽毛、圆脸等)生成的。现有的生成方法其实是在学习P(X|Z,Y),然后将Y的值设为某一类的特征(例如ZSL中的密集标签),而将Z设为高斯噪声,从而生成该类的多样本。
