互联网资讯 / 人工智能 · 2023年11月12日 0

视觉词表预训练超越Transformer,AI实现图像语言表达

如今,AI能通过图像进行语言表达,并且其表现已超越人类?最近,AzuRe推出了一项新的人工智能服务,能够准确描述图片内容。这一背后的视觉词表技术,已经在nocaps挑战赛中取得了优异的成绩,超越了以Transformer为基础的前辈。

你是否注意到,有时搜索引擎返回的图片相关性不高?

目前许多搜索引擎依赖图片的文本标签,但我们每天产生大量未标记的照片,这给图片搜索带来了挑战。

若系统能够自动为图片添加精确描述,图像搜索的效率将显著提升。

看图说话的AI:模板与Transformer模型的不足之处

近年来,看图说话(或图像描述)受到了广泛关注,它能够自动生成图片描述。然而,无论是在学术界还是工业界,目前的效果仍不尽如人意。

看图说话系统需要计算机视觉来识别图像,同时也需要自然语言来描述被识别的物体。虽然有标注的图片可以用于特定训练,但若出现未标注的新物体,系统是否会失效呢?

这个问题一直困扰着人们,即如何清晰描述新出现的事物。

在人工智能领域,通常通过基准测试来验证模型的优劣。例如,在自然语言处理领域使用GLUE、SuperGLUE等测试,而图像识别则使用ImageNet等标准。

视觉词表预训练超越Transformer,AI实现图像语言表达

为评估模型在没有训练数据的情况下能否完成看图说话,nocaps应运而生。该测试能衡量模型对未出现物体的描述准确性。

传统的看图说话方法主要分为两类:模板生成与基于Transformer的图像文本交互预训练。

视觉词表预训练超越Transformer,AI实现图像语言表达

模板生成方法在简单场景下有效,但难以捕捉深层的图像文本关系,而基于Transformer的模型则需要海量标注数据,因此不适合nocaps。

为了解决这些问题,微软认知服务团队的研究人员提出了一种名为视觉词表预训练(Visual Vocabulary Pre-training,简称vivo)的新方法。

vivo:无需配对图文数据,首次超越人类的看图说话能力

vivo能够在没有文本标签的数据上进行多模态预训练,摆脱了对配对图文数据的依赖,并能直接利用ImageNet等数据集的类别标签。通过vivo,模型能够学习物体的视觉特征与语义之间的关系,从而建立视觉词表。

那么什么是视觉词表呢?它实际上是一个图像和文本的联合特征空间,在这个空间中,语义相近的词汇会聚集在一起,例如金毛与牧羊犬,手风琴与乐器等。

视觉词表预训练超越Transformer,AI实现图像语言表达

在预训练建立词表后,模型只需在少量共同物体的图文配对数据上进行微调,便能自动生成通用的模板句子,即使在遇到未见过的词汇时也能轻松应对,实际上实现了图像与描述各部分的解耦。

因此,vivo既能利用预训练的强大物体识别能力,又能通过模板的通用性来应对新出现的物体。

AzuRe AI的首席技术官黄学东解释说,视觉词表的预训练类似于孩子们通过图画书学习,图画书将单个单词与图像相联系,例如一个苹果的图片下方标注”apple”,一只猫的图片下方标注”cat”。

视觉词表的预训练本质上就是训练系统完成这种关联记忆。

目前,vivo在nocaps挑战中取得了SOTA效果,并首次超越了人类表现。

视觉词表预训练超越Transformer,AI实现图像语言表达

vivo的成功不仅体现在挑战赛的SOTA上,现已开始应用于实际场景。

看图说话的SOTA已上线,AI不应停留在灰色的迭代中

据世界卫生组织统计,全球各年龄段视力受损的人数约为2.85亿,其中3900万人是盲人。

视力受损的用户在获取图片和视频信息时,往往依靠自动生成的描述或字幕(可进一步转化为语音),他们对这些自动生成的描述极为信任,无论字幕是否有意义。

“理想情况下,每个人都应该在文档、网络、社交媒体中为图片添加描述,以便让盲人能够访问内容并参与对话。”然而,这在实际中并不现实,许多图片并没有对应的文本。

AzuRe AI的首席技术官黄学东指出:“看图说话是计算机视觉的核心能力之一,能够提供广泛的服务。”

如今,vivo的看图说话能力已融入AzuRe AI,任何人都可以将其集成到自己的视觉AI应用中。

视觉词表预训练超越Transformer,AI实现图像语言表达

黄学东认为,将vivo的突破带入AzuRe,能够为更广泛的客户群体服务,这不仅是技术上的突破,更是将这一突破转化为产品所需的时间。

基于vivo的小程序SeEINg AI已在苹果应用商店上线,AzuRe也推出了免费的API供盲人或视障用户使用。此外,结合AzuRe的翻译服务,看图说话功能可支持超过80种语言。

确实,许多实验室的SOTA技术因不断迭代而未能实现其最初的使命。

看图说话只是认知智能的一小步,受古登堡印刷机启发开创新的技术

近年来,微软一直努力寻求超越现有技术的人工智能。

作为AzuRe认知服务的首席技术官,黄学东及其团队始终探索如何更全面、更人性化地学习和理解这个世界。

视觉词表预训练超越Transformer,AI实现图像语言表达

他认为,要提升认知能力,三个要素至关重要:单语言文本(X)、音频或视觉等感觉信号(Y)和多语言(Z)。

“我们相信XYZ-code正在实现我们的长期愿景:跨领域、跨模式和跨语言的学习。我们的目标是建立预训练模型,使其能够学习广泛的下游人工智能任务,就像人类所做的那样。”

黄学东团队受到德国发明家约翰内斯·古登堡的启发,他在1440年发明了印刷机,使人类能够快速、大规模地分享知识。作为历史上最重要的发明之一,古登堡的印刷机彻底改变了人类社会的发展方式。

视觉词表预训练超越Transformer,AI实现图像语言表达

古登堡与他发明的印刷机

在当今数字时代,认知智能的愿景是开发出一种能够像人类一样学习和推理的技术,以便对各种情况和意图进行准确推断,从而做出合理决策。

在过去五年中,我们已在多个人工智能领域实现了与人类平起平坐的地位,包括语音识别对话、机器翻译、问答对话、机器阅读理解和看图说话。

这五项突破让我们对实现人工智能飞跃更有信心,XYZ-code将成为多感官和多语言学习的重要组成部分,最终使人工智能更像人类。

正如古登堡的印刷机革命性地改变了沟通方式,认知智能将助力我们实现人工智能的伟大复兴。

看图说话体验链接:

https://apps.apple.com/US/app/seEINg-AI/id999062298