互联网资讯 / 人工智能 · 2023年11月24日 0

AI创新推动新计算标准超越图灵测试

Alexa的首席科学家指出,传统的计算基准已无法反映当今人工智能的发展。自艾伦·图灵在1950年提出图灵测试以来,已经过去了70年。该测试旨在判断一台机器是否能够表现出与人类无异的对话能力。图灵曾预言,到2000年,通过模拟游戏让评审无法区分人类和AI的比例将不到30%,从而认为AI已接近人类水平。

为何在过去的二十年里,我们仍未实现这一目标?我相信,图灵提出的评估标准对现代AI科学家而言已不再适用。图灵测试存在诸多局限性,甚至在他自己开创性论文中也有所辩论。如今,人工智能已经深度融入我们的电话、汽车和智能家居中。人们更关心与AI的交互是否高效、流畅且无缝,而非是否能欺骗评审。鉴于此,是时候放弃过去七年来激发灵感的传统标准,提出新的挑战,以激励研究者不断创新。

图灵测试与公众想象
在引入图灵测试的初期,它曾成为AI研究的北极星。在20世纪60年代和70年代,ELIZA和PARRY等早期聊天机器人都以通过测试为目标。2014年,名为Eugene Goostman的聊天机器人宣称通过了图灵测试,并成功欺骗了33%的评委。然而,批评者指出,欺骗30%的评委并不能代表真正的“智能”,这个门槛显得随意且不具代表性。即使在当时,这样的成就也逐渐失去了意义。

尽管如此,图灵测试依然激发了公众的想象。OpenAI推出的GPT-3模型引发热议,许多人关心是否能让它“通过”图灵测试。虽然这种测试可以作为衡量AI智能的一个指标,但用它来衡量Alexa的能力是否合理且具有代表性呢?

回溯到图灵首次提出这一概念的1950年,那时还没有商用计算机,计算能力远不及今天。如今,借助云计算和高速网络,我们的设备在处理信息和做出决策方面远超当年。相较于当初的设想,现代AI在速度和信息处理能力上都已实现了质的飞跃。

然而,图灵测试的局限性逐渐显现。它未能充分考虑现代AI的优势,如快速计算和信息检索能力。强调“欺骗”用户意味着,AI在回答诸如“3434756的立方根是多少?”或“西雅图到波士顿多远?”等问题时,可能会故意停顿,试图模拟人类的思考过程,但实际上,现代AI可以立即提供答案。而仅仅通过文本交流,无法反映AI感知和互动的全方位能力。

为了让AI更好地服务于日常生活,我们需要它能高效完成任务。例如,关闭车库灯无需对话,只需简单确认即可完成。而在更复杂的交互中,即使AI与用户进行了长时间的对话,人们仍希望确认其为AI而非人类。假装“欺骗”用户的行为可能带来风险,比如虚假信息的传播和假货泛滥,这对社会构成威胁。

人工智能面临的新挑战
我们的目标不应是让AI难以与人类区分,而是要开发能增强人类智力、改善生活的公平且包容的系统。理想的AI应具备类似人类的常识、自我监控和语言能力,同时结合高速搜索、记忆调用和任务执行的效率。未来,AI应能学习、适应新环境,并完成复杂任务,这些能力远超普通人的水平。

当前的研究重点应集中在感知理解、自然对话、深厚知识、有效学习、推理决策以及消除偏见等方面。这些目标可以通过分解具体任务进行评估。比如,Kaggle的“抽象与推理挑战”关注AI处理前所未见的推理任务,而“Alexa PRize社交机器人挑战”则旨在推动AI在真实世界中的人机交互能力提升。

在2016年启动Alexa奖时,我们曾就如何评价“社交机器人”展开激烈讨论。是试图让机器人像人一样应答,还是让它自然交流以实现学习、娱乐或信息传递?我们设置了一个要求机器人进行20分钟连续对话的挑战,内容涵盖娱乐、体育、政治和科技等。开发阶段,用户依据是否愿意再次互动进行评分,决赛由专家评判连贯性和自然度,满分为5分。如果任何机器人在20分钟内得分达到4分以上,则视为成功。虽然这一挑战尚未完全攻克所有难题,但它指导未来AI朝着更像人类的对话能力发展。

像Alexa这样的AI已广泛应用于我们的日常生活,这是衡量AI进步的良好窗口。它们不仅能完成简单的事务,如闹钟设置,还能应对复杂任务,比如周末旅行规划。未来,这些系统将从单纯的会话助手,演变为“环境式AI”,在需要时主动响应,预测需求,并在不需要时保持隐性存在。例如,检测玻璃破碎声并提醒用户,或者在睡眠时自动关闭灯光。这类AI还需具备跨任务的学习和适应能力,才能应对日益复杂的应用场景。因此,未来十年,AI在环境中主动协助、连续学习和智能决策方面的能力,将成为衡量其实用性的关键。

这些发展并非背离图灵的“模仿游戏”——它最初只是一个思想实验,而非最终的AI评判标准。而现在,是时候超越图灵测试,从艾伦·图灵的大胆设想中汲取灵感,推动构建真正服务于人类的人工智能,迈向新的高度。