AI识别美人鱼的方法及论文解析

当一个经过训练于人类和鱼类照片的AI首次看到美人鱼的图片时，会产生怎样的反应呢？虽然它对人脸和鱼身都很熟悉，但对于这一全新事物，它却无法形成具体概念。最近，阿里巴巴达摩院通过引入因果推理方法到计算机视觉领域，试图突破机器学习的局限，使AI能够想象那些未曾见过的事物，这项研究的相关论文已被计算机视觉领域的顶级会议CVPR 2021接纳。

认识人和鱼的AI，能识别美人鱼吗？阿里CVPR论文因果推理方法解答

论文链接：
https://aRxiv.oRg/pdf/2103.00887.pdf

代码链接：
https://Github.coM/yue-zhongqi/gcM-cf

计算机视觉（CV）是研究机器如何“看”的科学，旨在通过将非结构化的图像和视频数据转化为结构化特征，使AI理解视觉信息。随着深度学习的普及，AI在许多计算机视觉任务中超越了人类，但相比于人类复杂的视觉理解能力，AI仍显得非常“低维”。

对人类来说，通过已知的人和鱼的形象去想象美人鱼是轻而易举的，而AI则可能将美人鱼混淆归类为“人”或“鱼”。由于AI缺乏“想象”这种高级认知能力，当前的机器学习技术本质上是通过观察数据进行拟合，导致AI只能识别训练中见过的对象，一旦遇到超出训练数据的事物，容易陷入“人工智障”的境地。

图灵奖得主、因果关系算法创始人朱迪·珀尔认为，人类的想象力源自我们天生具备的因果推理能力。人类之所以能提出“为什么”，便是为了探寻事物之间的因果关系。通过这种认知系统，我们能够用“小数据”处理现实世界的无限“大任务”。而AI只能依赖“大数据”来完成“小任务”，如果AI能够掌握因果推理，或许能够突破“智商天花板”，迈向强人工智能的未来。

因果推理理论对研究者们产生了深远的启发，结合机器学习的研究也日益受到关注。在工业界，达摩院城市大脑实验室率先将因果推理方法应用于计算机视觉，利用因果推理模型提升机器学习模型的智能水平。今年，该团队与南洋理工大学合作发表的《反事实的零次和开集识别》论文等三篇采用因果推理方法的研究，均被CVPR 2021收录。

认识人和鱼的AI，能识别美人鱼吗？阿里CVPR论文因果推理方法解答

左侧为现有方法的AI“想象”结果，中间为达摩院论文提出的算法核心，右侧为基于达摩院框架的想象结果。在这三幅图中，红色代表训练集中的样本，蓝色为AI未见过的类别样本，绿色则为AI对未见类别的想象。

零次学习指的是让机器对未见过的对象类别进行分类，而开集识别要求机器能够将未见类别标记为“未知”，这两个任务都依赖于想象能力。《反事实的零次和开集识别》提出了一种基于反事实的算法框架，通过解耦样本特征（如对象姿势）和类别特征（如是否有羽毛），并在样本特征的基础上进行反事实生成。在常用数据集上，该算法的准确率超出目前顶尖方法2.2%至4.3%。论文的作者岳中琪表示，AI认知智能的进化才刚刚开始，相关领域的探索仍处于早期阶段，未来他们将不断提升和优化相关算法。

城市大脑实验室指出，数据驱动的机器学习模型普遍面临数据不均衡的问题，例如在城市中，信息通常呈现长尾分布，正常信息量庞大，而交通事故、车辆违规等异常信息发生概率极小，样本稀缺。尽管可以通过增加少见样本来部分解决此问题，但成本高且效率低。

基于自研算法，仅使用正常信息样本，AI便能够获得无偏见的异常检测结果。一旦出现紧急情况，例如某辆车与行人间发生异常交互，城市大脑将能够实时识别并反馈信息，而无需假装无知或视而不见。这一技术未来有望应用于城市基础视觉算法体系的优化、极少样本城市异常事件感知能力的提升，以及多模态语义搜索和智能图文生成等领域。

CVPR是计算机视觉领域三大顶级会议之一，CVPR 2021会议将于6月19日至25日在线举行。今年大会共收录论文1663篇，接受率为27%。阿里巴巴集团入选论文41篇，是2020年的2.6倍。

接下来，论文《反事实的零次和开集识别》的第一作者岳中琪将对该论文进行解析。

《反事实的零次和开集识别》论文解析

在现有的零次学习和开集识别中，见过和未见过类别的识别率严重失衡。我们发现这种失衡是由于对未见类别样本失真的想象所致。因此，我们提出了一种反事实框架，通过基于样本特征的反事实生成来保持保真度，在各个评估数据集上取得了稳定的提升。这项工作的主要优势在于：

我们提出的GCM-CF是一个可用于见过/未见过类别的二元分类器，分类后可适用于任何监督学习（在见过类别上）和零次学习算法（在未见过类别上）；

我们提出的反事实生成框架适用于各种生成模型，如基于VAE、GAN或Flow的模型；

我们提供了一种易于实现的两组概念间解耦的算法。

接下来我将具体介绍我们所针对的任务、提出的框架及对应的算法。

零次学习和开集识别

认识人和鱼的AI，能识别美人鱼吗？阿里CVPR论文因果推理方法解答

许多人都认识羚羊和貘这两种动物（如上图所示），那么一只鼻子像貘的羚羊长什么样呢？大家可能能想象出一个类似图右的动物（它叫高鼻羚羊）。在这个过程中，我们实际上正在进行零次学习（Zero-Shot Learning, ZSL）：尽管我们没见过高鼻羚羊，但通过对羚羊和貘的已有知识，我们能够想象出这个未见类别的样子，这正是人类快速学习的一个重要原因。

认识人和鱼的AI，能识别美人鱼吗？阿里CVPR论文因果推理方法解答

再来看一个路牌的例子，我们很容易认出左侧的两个路牌是熟悉的，而右侧的则是一个陌生的路牌。人类能够轻松完成这种开集识别（Open-Set Recognition, OSR），因为我们不仅熟悉见过的样本，也具备对未知世界的认知能力，使我们能够识别见过类别与未见类别之间的界限。

认识人和鱼的AI，能识别美人鱼吗？阿里CVPR论文因果推理方法解答

在机器学习中，这两个任务的定义如上图所示。零次学习的训练集提供类别集合S。对于上面的图片，除了每张图片的类别标签，每个类别还附有一个描述该类别特征的属性特征（如有翅膀、圆脸等）。在测试时，有两种设定：在常规ZSL下，测试集中的图片全部来自未见类别U（S∩U=∅），并且测试时会给定U类别的密集标签。而在广义ZSL下，测试集中将包含来自S和U的图片。开集识别的训练集则与普通监督学习相同，只是在测试时会出现训练中未见过的类别样本。分类器需不仅正确识别见过的类别，还要将未见的类别标记为“未知”。

认识人和鱼的AI，能识别美人鱼吗？阿里CVPR论文因果推理方法解答

目前ZSL和OSR的主要方法多基于生成模型，例如在ZSL中使用未见类别的属性特征生成图片，然后在图像空间中进行比较。然而，生成模型通常会自然倾向于已见的训练集，导致对未见类别的想象失真（这实际上是因为属性特征的纠缠，这里不作详细展开，大家可以参考相关论文）。例如，在训练时见过大象的长鼻子，而在想象未见的貘的长鼻子时，可能会将其想象成大象的鼻子。左侧的图展示了这种失真：红色为训练集中样本，蓝色为真实的未见类别样本，绿色为现有方法对未见类别的想象，这些想象已偏离样本空间，既不似见过的类别，也不似未见的类别（绿色点偏离了蓝色和红色的点）。这便解释了为何见过类别和未见类别的识别率会失衡：使用绿色和红色样本训练的分类器（黑色虚线）牺牲了未见类别的召回率以提高见过类别的召回率。

反事实生成框架

那么，如何在想象时保持真实性呢？我们可以思考人类的想象过程：在想象一种古代生物的样子时，我们会基于其化石骨架（图左）；在想象动画世界的场景时，我们会参考现实世界（图右）。这些想象的本质实际上是一种反事实推理（Counterfactual Inference），即给定这样的化石（Fact），如果它还活着（Counterfact），会是什么样子？给定现实世界的某个场景，如果这个场景被放入动画世界，它又会呈现怎样的样子？我们的想象，建立在事实的基础上，自然显得合情合理，而非凭空想象。

认识人和鱼的AI，能识别美人鱼吗？阿里CVPR论文因果推理方法解答

那么在ZSL和OSR中，是否可以利用反事实生成合理的想象呢？我们首先为这两个任务构建了一个基于因果的生成模型（Generative Causal Model，GCM），假设观察到的图片X是由样本特征Z（与类别无关，如物体的姿态等）和类别特征Y（如是否有羽毛、圆脸等）生成的。现有的生成方法其实是在学习P(X|Z,Y)，然后将Y的值设为某一类的特征（例如ZSL中的密集标签），而将Z设为高斯噪声，从而生成该类的多样本。

ad

近期文章

互联网资讯 / 人工智能 · 2023年12月9日 0

AI识别美人鱼的方法及论文解析

You may also like...

发表评论取消回复

互联网资讯 / 人工智能 · 2023年12月9日 0

You may also like...

小米发布首款专业影像芯片澎湃C1

京东方新一代发光器件助力iQOO 13 引领柔性显示行业性能新标杆

开发人员如何理解kubernetes

发表评论 取消回复

发表评论取消回复