零样本学习的全新视觉问答模型实现多任务泛化
近来推出的弱监督看图说话模型采用零样本学习能力实现跨任务迁移,能够在不进行微调的情况下应对多类型任务。
该模型从文字描述到回答关于图像的问题,均可直接处理,彰显了更高的灵活性与通用性。

在大多数视觉语言预训练(VLP)框架中,数据集往往需要大量精确标签,且任务迁移通常要重新标注数据集以适配特定任务。这意味着标注成本高且难以实现多任务共用。
是否可以设计出一种简单而通用的VLP模型?新的方案通过大量弱对齐的图像-文本对进行建模,显著简化了训练流程,降低了训练复杂度。
该模型采用前缀语言建模作为单一训练目标,直接以原始图像作为输入,从而更好地利用大规模弱标记数据,提升零样本泛化能力。
SiMVLM 的实现原理是什么?
预训练阶段采用前缀语言建模的单一目标,输入为序列前缀,由模型解码器预测后续内容。对于数据中的图像-文本对,图像序列可视作文本描述的前缀。
这一思路简化了训练流程,同时提高了模型在不同任务设置下的适应性和通用性。
主干网络方面,模型采用在语言与视觉任务均表现突出的 Transformer 架构。对输入的原始图像数据提取上下文信息,采用卷积网络进行特征提取。

如图所示,视觉模态将图像分割为若干 patch,随后形成一维序列;文本模态的句子会被映射成一个表征向量,供模型整合与预测使用。
本模型在包含约 1.8B 条图像-文本对的对齐数据集上进行预训练,以提升零样本学习的泛化能力。
为缓解训练数据中的噪声影响,训练阶段还利用了另外一个规模极大的清洗数据集,约 800G 的大规模文本数据集以提升鲁棒性。
SiMVLM 的基础性能表现如何?
预训练完成后,需要在多模态任务上进行微调,以评估综合能力,涉及的任务包括:VQA、NLVR2、SNLI-VE、COCO Caption、NoCaps,以及 Multi30K En-De。

与现有强基线模型对比,SiMVLM 在不同规模(约 8600 万、3.07 亿、6.32 亿参数)下的表现均处于领先水平,跨任务测试结果显示总体优势,除个别指标外多项达到最新状态(SOTA)。
总体而言,跨模态任务的性能随模型规模增大而提升,显示出该模型在多任务场景中的强大潜力。
零样本跨模态泛化能力
在跨模态任务上取得不错的成绩后,模型的零样本跨模态迁移能力如何?
预训练后的模型在文本数据微调与否皆可进行测试,覆盖图像字幕、多语言字幕、开放式视觉问答,以及视觉文本生成等任务。
测试结果如下图所示:

在给定图像和文本提示的情况下,模型无需微调即可对图像内容进行预测。

p
此外,未微调的模型在德语字幕生成、跨数据集的答案生成、基于图像内容的文字描述、开放式视觉问答等任务上也展现出良好表现。
为量化零样本学习能力,研究团队将预训练的冻结模型在 COCO Caption 和 NoCaps 上进行解码,并与监督基线进行对比。

结果显示,即使未进行监督微调,模型也能达到接近监督训练的水平。
研究团队成员与背景
本研究的第一作者是一名研究人员,目前在计算机科学领域的顶尖学术机构深造,曾在多项国际顶级会议上以第一作者身份发表论文。

在公开数据集上的早期成绩已达到行业领先水平,随后也在相关团队的工作中实现了技术迭代与提升。

此次提出的 SiMVLM 在六项视觉-语言基准测试中实现了单模型的SOTA表现,并展示了基于文本引导的零样本学习泛化能力,凸显了该类模型的研究价值与应用潜力。