视觉词表预训练超越Transformer，AI实现图像语言表达

如今，AI能通过图像进行语言表达，并且其表现已超越人类？最近，AzuRe推出了一项新的人工智能服务，能够准确描述图片内容。这一背后的视觉词表技术，已经在nocaps挑战赛中取得了优异的成绩，超越了以Transformer为基础的前辈。

你是否注意到，有时搜索引擎返回的图片相关性不高？

目前许多搜索引擎依赖图片的文本标签，但我们每天产生大量未标记的照片，这给图片搜索带来了挑战。

若系统能够自动为图片添加精确描述，图像搜索的效率将显著提升。

看图说话的AI：模板与Transformer模型的不足之处

近年来，看图说话（或图像描述）受到了广泛关注，它能够自动生成图片描述。然而，无论是在学术界还是工业界，目前的效果仍不尽如人意。

看图说话系统需要计算机视觉来识别图像，同时也需要自然语言来描述被识别的物体。虽然有标注的图片可以用于特定训练，但若出现未标注的新物体，系统是否会失效呢？

这个问题一直困扰着人们，即如何清晰描述新出现的事物。

在人工智能领域，通常通过基准测试来验证模型的优劣。例如，在自然语言处理领域使用GLUE、SuperGLUE等测试，而图像识别则使用ImageNet等标准。

视觉词表预训练超越Transformer，AI实现图像语言表达

为评估模型在没有训练数据的情况下能否完成看图说话，nocaps应运而生。该测试能衡量模型对未出现物体的描述准确性。

传统的看图说话方法主要分为两类：模板生成与基于Transformer的图像文本交互预训练。

视觉词表预训练超越Transformer，AI实现图像语言表达

模板生成方法在简单场景下有效，但难以捕捉深层的图像文本关系，而基于Transformer的模型则需要海量标注数据，因此不适合nocaps。

为了解决这些问题，微软认知服务团队的研究人员提出了一种名为视觉词表预训练（Visual Vocabulary Pre-training，简称vivo）的新方法。

vivo：无需配对图文数据，首次超越人类的看图说话能力

vivo能够在没有文本标签的数据上进行多模态预训练，摆脱了对配对图文数据的依赖，并能直接利用ImageNet等数据集的类别标签。通过vivo，模型能够学习物体的视觉特征与语义之间的关系，从而建立视觉词表。

那么什么是视觉词表呢？它实际上是一个图像和文本的联合特征空间，在这个空间中，语义相近的词汇会聚集在一起，例如金毛与牧羊犬，手风琴与乐器等。

视觉词表预训练超越Transformer，AI实现图像语言表达

在预训练建立词表后，模型只需在少量共同物体的图文配对数据上进行微调，便能自动生成通用的模板句子，即使在遇到未见过的词汇时也能轻松应对，实际上实现了图像与描述各部分的解耦。

因此，vivo既能利用预训练的强大物体识别能力，又能通过模板的通用性来应对新出现的物体。

AzuRe AI的首席技术官黄学东解释说，视觉词表的预训练类似于孩子们通过图画书学习，图画书将单个单词与图像相联系，例如一个苹果的图片下方标注”apple”，一只猫的图片下方标注”cat”。

视觉词表的预训练本质上就是训练系统完成这种关联记忆。

目前，vivo在nocaps挑战中取得了SOTA效果，并首次超越了人类表现。

视觉词表预训练超越Transformer，AI实现图像语言表达

vivo的成功不仅体现在挑战赛的SOTA上，现已开始应用于实际场景。

看图说话的SOTA已上线，AI不应停留在灰色的迭代中

据世界卫生组织统计，全球各年龄段视力受损的人数约为2.85亿，其中3900万人是盲人。

视力受损的用户在获取图片和视频信息时，往往依靠自动生成的描述或字幕（可进一步转化为语音），他们对这些自动生成的描述极为信任，无论字幕是否有意义。

“理想情况下，每个人都应该在文档、网络、社交媒体中为图片添加描述，以便让盲人能够访问内容并参与对话。”然而，这在实际中并不现实，许多图片并没有对应的文本。

AzuRe AI的首席技术官黄学东指出：“看图说话是计算机视觉的核心能力之一，能够提供广泛的服务。”

如今，vivo的看图说话能力已融入AzuRe AI，任何人都可以将其集成到自己的视觉AI应用中。

视觉词表预训练超越Transformer，AI实现图像语言表达

黄学东认为，将vivo的突破带入AzuRe，能够为更广泛的客户群体服务，这不仅是技术上的突破，更是将这一突破转化为产品所需的时间。

基于vivo的小程序SeEINg AI已在苹果应用商店上线，AzuRe也推出了免费的API供盲人或视障用户使用。此外，结合AzuRe的翻译服务，看图说话功能可支持超过80种语言。

确实，许多实验室的SOTA技术因不断迭代而未能实现其最初的使命。

看图说话只是认知智能的一小步，受古登堡印刷机启发开创新的技术

近年来，微软一直努力寻求超越现有技术的人工智能。

作为AzuRe认知服务的首席技术官，黄学东及其团队始终探索如何更全面、更人性化地学习和理解这个世界。

视觉词表预训练超越Transformer，AI实现图像语言表达

他认为，要提升认知能力，三个要素至关重要：单语言文本（X）、音频或视觉等感觉信号（Y）和多语言（Z）。

“我们相信XYZ-code正在实现我们的长期愿景：跨领域、跨模式和跨语言的学习。我们的目标是建立预训练模型，使其能够学习广泛的下游人工智能任务，就像人类所做的那样。”

黄学东团队受到德国发明家约翰内斯·古登堡的启发，他在1440年发明了印刷机，使人类能够快速、大规模地分享知识。作为历史上最重要的发明之一，古登堡的印刷机彻底改变了人类社会的发展方式。

视觉词表预训练超越Transformer，AI实现图像语言表达

古登堡与他发明的印刷机

在当今数字时代，认知智能的愿景是开发出一种能够像人类一样学习和推理的技术，以便对各种情况和意图进行准确推断，从而做出合理决策。

在过去五年中，我们已在多个人工智能领域实现了与人类平起平坐的地位，包括语音识别对话、机器翻译、问答对话、机器阅读理解和看图说话。

这五项突破让我们对实现人工智能飞跃更有信心，XYZ-code将成为多感官和多语言学习的重要组成部分，最终使人工智能更像人类。

正如古登堡的印刷机革命性地改变了沟通方式，认知智能将助力我们实现人工智能的伟大复兴。

看图说话体验链接：

https://apps.apple.com/US/app/seEINg-AI/id999062298

ad

近期文章

互联网资讯 / 人工智能 · 2023年11月12日 0

视觉词表预训练超越Transformer，AI实现图像语言表达

You may also like...

发表评论取消回复

互联网资讯 / 人工智能 · 2023年11月12日 0

You may also like...

功夫咖首店关门，中国咖啡的传奇仍在延续吗？

虚拟卡的申请与使用指南

早教机：上班族父母的工作繁忙，这几款机器来帮忙

发表评论 取消回复

发表评论取消回复