互联网资讯 / 人工智能 · 2023年11月28日 0

CLIP:用简单语言实现精准搜图

不必再担心图片搜索结果与预期不符,现在你可以尝试OpenAI最新技术CLIP带来的精准图片搜索。

只需简单的一句话描述,即可找到所需的图片。

例如,输入:

The woRd lOVe wRITten on the wall

你将会得到这样的结果:

用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人

可以说这是相当精准的!这个项目最近在ReddIT上引起了热议。

用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人

CLIP是OpenAI最近推出的DALL·E中的核心模块,负责对生成的图片进行重排序。

这个项目使用谷歌Colab Notebook,在线且免费,包含多达200万张图片数据集,最引人注目的是它的精确效果。

网友们纷纷称赞“AMazing”。

简单几步,轻松实现在线精准搜图

该项目之所以如此火爆,简单的操作流程是一个重要原因。

首先,访问该项目在Colab Notebook中的链接(见文末链接),并登录你的账号。

用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人

环境配置、包或库的调用都已经为你准备好了,只需依次点击cell旁的小三角,等待运行完成即可。

用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人

最后,找到包含以下代码的cell:

SeaRch_queRy = “Two dogs playing in the snow”

运行这个cell后,你就能得到搜索图片的结果,例如:

用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人

用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人

当然,程序似乎很懂人心,当输入“当你的代码成功运行时的情绪”:

The feeling when youR ProgRaM finally woRks

得到的结果,正和人们的预期一致:

用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人

用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人

为何CLIP能够如此精准地进行搜图?

OpenAI最近推出的DALL·E,主要功能是根据文字描述生成相应的图片。

而它呈现的最终作品,其实是从大量生成的图片中筛选而来。

这一过程中涉及到排名和评分的筛选工作,这正是CLIP的职责所在:

匹配度高、CLIP能够理解的图片会获得更高的分数,从而排名更靠前。

用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人

这种结构类似于利用生成对抗网络(GAN)合成图像。

但与通过GAN扩展图像分辨率或进行图像-文本特征匹配的方法不同,CLIP选择直接对输出进行排名。

研究人员指出,CLIP网络的最大意义在于,它解决了深度学习在视觉任务中面临的两个主要问题。

首先,它降低了深度学习所需的数据标注量。

与手动在imageNet上用文字描述1400万张图像不同,CLIP直接从网络上现有的“文字描述图像”数据中进行学习。

用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人

此外,CLIP还拥有多种能力,能够在各类数据集上表现出色。

而此前的大多数视觉神经网络仅能在训练集上取得良好表现。

例如,与ResNet101相比,CLIP在各数据集上均表现出色,而ResNet101在imageNet之外的检测精度则相对较差。

用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人

具体而言,CLIP运用了零样本学习、自然语言理解和多模态学习等技术来实现图像理解。

用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人

例如,描述一只斑马可以用“马的轮廓+虎的皮毛+熊猫的黑白”来表述。这样,网络能够从未见过的数据中找出“斑马”的图像。

最终,CLIP将文本和图像理解相结合,预测哪些图像与数据集中的文本能够达到最佳匹配。

用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人

在惊叹CLIP用简单语言实现精准搜图效果的同时,一位ReddIT网友还发现了一个有趣的搜索结果。

他在文本描述的代码部分输入:

What image best RepResents how you feel Right now?

这句话在我们看来是询问AI的语气,然后出现的图片结果如下:

用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人

还有这样的:

用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人