AI具备艺术创造力的新功能发布

OpenAI再度发布了一项引人注目的新技术。

本月初，去年夏季推出广受欢迎的语言模型GPT-3的OpenAI团队，发布了一款名为DALL-E的新AI模型。尽管它的热度不如GPT-3，但它可能对AI未来的发展产生更深远的影响。

简单来说，DALL-E能够根据文本描述生成独特的图像。例如，当输入“绿色五角形时钟”、“火球”或“建筑墙面上的蓝色南瓜壁画”时，DALL-E便能生成惊人且准确的视觉效果。

AI具备艺术创造力的新功能发布

在要求生成“建筑墙面上的蓝色南瓜壁画”后，DALL-E展示了其强大的图像生成能力。

DALL-E的重要性何在？

首先，它标志着一种新型“多模AI”范式的出现，这可能是人工智能未来发展的方向。以DALL-E为例，这种多模AI系统能够解析、合成和翻译多种信息模式，从而实现情境、语言和图像之间的映射。虽然DALL-E并非首个多模AI方案，但其实际效果是迄今为止最令人惊叹的。

OpenAI的联合创始人Ilya Sutskever指出：“这个世界不仅由文字构成。人类在表达时，也会依赖视觉。视觉元素至关重要。”

目前，大多数AI系统只能处理单一类型的数据。例如，自然语言处理模型（如GPT-3）仅能处理文本；而计算机视觉模型（如人脸识别系统）则只能处理图像。然而，人类的大脑显然具有更高的适应性，能够灵活处理多种信息。

人类通过五种感官不断接收并整合信息，借助视觉、听觉、触觉、嗅觉与味觉的结合来理解周围的世界。基于此，我们又通过语音、文本、肢体语言、面部表情和音乐等多种方式来传达信息。

通过将自然语言理解与视觉表示生成的能力结合，DALL-E再次证明了多模AI的巨大潜力。

这仅仅是个开始。在接下来的几个月和几年中，新的AI系统有望实现音频、视频、语音、图像、书面文本、触觉等多种元素的无缝衔接。随着AI逐渐学会更加复杂地整合多种信息，其对世界的理解和产生新见解的能力将迎来爆发式增长。

DALL-E还有另一层更为根本的重要性：人类越来越无法否认人工智能所蕴含的巨大创造力。

DALL-E生成的图像超出了人类的想象力。这不仅是对互联网上现有图像的简单修改——相反，这些是前所未有的效果图，其巧妙性和独创性足以令艺术家们叹服。实际上，就连DALL-E的创造者们也常常无法理解其生成的原理。

AI具备艺术创造力的新功能发布

根据“一碗拉面表情符号”生成的图像

AI具备艺术创造力的新功能发布

根据“牛油果组成的企鹅”生成的图像

凭借如此强大的创造力，DALL-E在产品设计、时尚和建筑等领域展现出AI技术的实际应用潜力。不久的将来，人类设计师可能会逐渐习惯将DALL-E等AI系统作为构思助手或灵感来源。

例如，在设计“甜甜圈风格的扶手椅”时，DALL-E提供了多种富有构图的选择，其设计与外观也颇具水准。可以预见，未来家具设计师将反复使用DALL-E探索模型输出，通过调整输入文本进行设计迭代，最终将AI元素融入自己的作品中。从汽车到灯具、从珠宝到房屋，类似的创意过程将适用于众多产品。

根据“甜甜圈风格的扶手椅”生成的输出图像

当然，DALL-E仍然存在不足，它生成的图像并不总能准确反映输入文本，时常会在颜色、数量或空间关系上出现错误。

OpenAI公开发布的DALL-E工作示例经过CLIP神经网络的排序与筛选。对于每个文本输入，系统筛选后仅显示512个样本中可信度最高的32个样本。换句话说，DALL-E实际生成的图像数量更多，但其中大部分效果并不理想。

综上所述，DALL-E的创造能力令人惊叹，而这项技术本身也在快速演进。

与其他AI技术的重要进展一样，DALL-E再次引发了一个古老的问题：机器的智能水平是否越来越接近人类？

一方面，DALL-E的诞生激发了关于超级智能技术的夸张讨论；另一方面，以知名深度学习评论家Gary Marcus为代表的怀疑者则认为，DALL-E并未对AI技术的发展带来实质性推动。

Marcus的观点值得认真对待。深度学习（包括为DALL-E和GPT-3提供基础的前沿Transformer架构）在智能概念建模上仍然存在重大局限性。

然而，从某种意义上讲，这场争论实际上偏离了真正的核心。无论OpenAI的新模型是否代表着向“人工通用智能”的迈进，或者深度学习能否真正实现与人类相当的认知水平，DALL-E本身的非凡能力已是不争的事实。

DALL-E及其后续方案有望在人与机器的创造关系中开辟新的可能性，从而带来巨大的经济价值，为新一波的创新型初创企业和产品奠定基础。

面对无限的可能性，我们只需满怀期待。

互联网资讯 / 人工智能 · 2023年11月27日 0