互联网资讯 / 人工智能 · 2023年11月27日 0

AI具备艺术创造力的新功能发布

OpenAI再度发布了一项引人注目的新技术。

本月初,去年夏季推出广受欢迎的语言模型GPT-3的OpenAI团队,发布了一款名为DALL-E的新AI模型。尽管它的热度不如GPT-3,但它可能对AI未来的发展产生更深远的影响。

简单来说,DALL-E能够根据文本描述生成独特的图像。例如,当输入“绿色五角形时钟”、“火球”或“建筑墙面上的蓝色南瓜壁画”时,DALL-E便能生成惊人且准确的视觉效果。

AI具备艺术创造力的新功能发布

在要求生成“建筑墙面上的蓝色南瓜壁画”后,DALL-E展示了其强大的图像生成能力。

DALL-E的重要性何在?

首先,它标志着一种新型“多模AI”范式的出现,这可能是人工智能未来发展的方向。以DALL-E为例,这种多模AI系统能够解析、合成和翻译多种信息模式,从而实现情境、语言和图像之间的映射。虽然DALL-E并非首个多模AI方案,但其实际效果是迄今为止最令人惊叹的。

OpenAI的联合创始人Ilya Sutskever指出:“这个世界不仅由文字构成。人类在表达时,也会依赖视觉。视觉元素至关重要。”

目前,大多数AI系统只能处理单一类型的数据。例如,自然语言处理模型(如GPT-3)仅能处理文本;而计算机视觉模型(如人脸识别系统)则只能处理图像。然而,人类的大脑显然具有更高的适应性,能够灵活处理多种信息。

人类通过五种感官不断接收并整合信息,借助视觉、听觉、触觉、嗅觉与味觉的结合来理解周围的世界。基于此,我们又通过语音、文本、肢体语言、面部表情和音乐等多种方式来传达信息。

通过将自然语言理解与视觉表示生成的能力结合,DALL-E再次证明了多模AI的巨大潜力。

这仅仅是个开始。在接下来的几个月和几年中,新的AI系统有望实现音频、视频、语音、图像、书面文本、触觉等多种元素的无缝衔接。随着AI逐渐学会更加复杂地整合多种信息,其对世界的理解和产生新见解的能力将迎来爆发式增长。

DALL-E还有另一层更为根本的重要性:人类越来越无法否认人工智能所蕴含的巨大创造力。

DALL-E生成的图像超出了人类的想象力。这不仅是对互联网上现有图像的简单修改——相反,这些是前所未有的效果图,其巧妙性和独创性足以令艺术家们叹服。实际上,就连DALL-E的创造者们也常常无法理解其生成的原理。

AI具备艺术创造力的新功能发布

根据“一碗拉面表情符号”生成的图像

AI具备艺术创造力的新功能发布

根据“牛油果组成的企鹅”生成的图像

凭借如此强大的创造力,DALL-E在产品设计、时尚和建筑等领域展现出AI技术的实际应用潜力。不久的将来,人类设计师可能会逐渐习惯将DALL-E等AI系统作为构思助手或灵感来源。

例如,在设计“甜甜圈风格的扶手椅”时,DALL-E提供了多种富有构图的选择,其设计与外观也颇具水准。可以预见,未来家具设计师将反复使用DALL-E探索模型输出,通过调整输入文本进行设计迭代,最终将AI元素融入自己的作品中。从汽车到灯具、从珠宝到房屋,类似的创意过程将适用于众多产品。

根据“甜甜圈风格的扶手椅”生成的输出图像

当然,DALL-E仍然存在不足,它生成的图像并不总能准确反映输入文本,时常会在颜色、数量或空间关系上出现错误。

OpenAI公开发布的DALL-E工作示例经过CLIP神经网络的排序与筛选。对于每个文本输入,系统筛选后仅显示512个样本中可信度最高的32个样本。换句话说,DALL-E实际生成的图像数量更多,但其中大部分效果并不理想。

综上所述,DALL-E的创造能力令人惊叹,而这项技术本身也在快速演进。

与其他AI技术的重要进展一样,DALL-E再次引发了一个古老的问题:机器的智能水平是否越来越接近人类?

一方面,DALL-E的诞生激发了关于超级智能技术的夸张讨论;另一方面,以知名深度学习评论家Gary Marcus为代表的怀疑者则认为,DALL-E并未对AI技术的发展带来实质性推动。

Marcus的观点值得认真对待。深度学习(包括为DALL-E和GPT-3提供基础的前沿Transformer架构)在智能概念建模上仍然存在重大局限性。

然而,从某种意义上讲,这场争论实际上偏离了真正的核心。无论OpenAI的新模型是否代表着向“人工通用智能”的迈进,或者深度学习能否真正实现与人类相当的认知水平,DALL-E本身的非凡能力已是不争的事实。

DALL-E及其后续方案有望在人与机器的创造关系中开辟新的可能性,从而带来巨大的经济价值,为新一波的创新型初创企业和产品奠定基础。

面对无限的可能性,我们只需满怀期待。