人工智能算法正在以意想不到的方式解决各种问题,这使得开发者们感到惊讶,但同时也引发了对人工智能控制的担忧。
在谷歌公司,一些员工正困惑地盯着电脑屏幕。他们已经花了几个月的时间来完善一个算法,目的是让一只无人热气球从波多黎各飞往秘鲁。然而,气球在机器智能的控制下经常偏离预定路线,令人沮丧。
谷歌的 Loon 项目曾旨在利用气球为偏远地区提供互联网接入,但由于最终原因不明,该项目已于最近停止。作为项目负责人,塞尔瓦托·坎迪多对此气球的轨迹感到无从解释,最后他的同事们只得手动干预,确保气球回到正确航道。
不久后,他们发现气球上的人工智能竟然重现了几百年、甚至几千年前人类发明的古老航海技巧,比如“改变航向”,即利用风的方向操控航行。
在恶劣天气条件下,这种自主飞行的气球竟然能够完全独立地调整航向,这一结果令参与项目的研究人员感到震惊。

当人工智能被放任自流时,可能会出现这样的情况。与传统计算机程序不同,人工智能的设计初衷就是探索并开发新的方法来完成任务,而这些任务并未被明确指示。
然而,在学习如何完成这些任务的过程中,人工智能有时会提出极具创造性的解决方案,这常常令使用者感到意外。这既可能是好事,也可能使得人工智能的行为变得不可预测,甚至带来潜在的危险,比如机器人或自动驾驶汽车可能做出危及人类的决策。
人工智能如何能够“超越”它的人类创造者?我们是否能够以某种方式限制机器智能,以防止不可预见的灾难发生?
在人工智能研究领域,有一个经常被提及的例子。佐治亚理工学院的马克·里德尔指出,DeepMind 的人工智能系统 AlphaGo 在围棋这项古老游戏中的表现令许多人感到惊喜,它成功击败了世界顶尖的棋手之一。DeepMind 是一家成立于2010年的人工智能公司,2014年被谷歌收购。
里德尔解释说:“事实证明,它们能够使用一些以前从未被人使用或许多人不知的策略来对付人类棋手。”
尽管如此,这场围棋比赛给人带来的感受却不尽相同。一方面,DeepMind自豪地展示了AlphaGo的“创新”,揭示了围棋这一人类玩了数千年的游戏的新玩法;另一方面,也有人对如此有创造力的人工智能是否会在未来对人类构成威胁表示担忧。
在 AlphaGo 取得历史性胜利后,西悉尼大学的机器学习研究者乔纳森·塔普森表示:“认为我们能够预测或管理人工智能最坏的行为是很可笑的,我们实际上无法想象它们可能的行为。”
里德尔指出,我们需要记住的一点是,人工智能的思维方式与人类并不相同。它们的神经网络确实受到动物大脑的启发,但更确切地说,它们是“探索设备”。在解决任务或问题时,它们并不会带有太多对更广阔世界的先入之见,而是通过尝试——有时是数百万次——来找到解决方案。
里德尔表示:“我们人类有很多思维的负担,我们会考虑规则,而人工智能系统甚至不理解规则,因此它们可以自由地进行尝试。”
他补充道,在这种情况下,人工智能可以被视作具有“学者症候群”的硅基实体。所谓学者症候群通常是指一个人有严重的精神障碍,但在某种艺术或学术领域却展现出非凡的才能。
人工智能让人惊讶的一个方面在于,它们能够利用相同的基本系统来解决完全不同的问题。近期,一款名为“GPT-2”的机器学习工具被要求执行一种截然不同的任务:下国际象棋。
该系统由非营利的人工智能研究组织 OpenAI 开发,利用数百万在线新闻文章和网页信息进行训练,能够根据句子中的前几个单词预测下一个单词。开发者肖恩·普莱瑟认为,国际象棋的走法可以用字母和数字组合来表示,因此可以通过训练算法来学习如何下棋。
普莱瑟对 GPT-2 系统进行了240万场国际象棋比赛的训练。他表示:“看到象棋引擎变成现实真是太酷了,我当时根本不确定这能否成功。”但 GPT-2 最终证明了自己的能力,尽管其水平未必能与专门设计的国际象棋计算机相提并论,但已成功参与了艰苦的比赛。
普莱瑟认为,他的实验显示 GPT-2 系统具备许多尚待探索的能力,堪称是一个具有国际象棋天赋的专家。该软件后来的一个版本让网页设计人员感到震惊,一位开发者对其进行简单训练,让其写出用于网页显示项目(如文本和按钮)的代码。尽管仅提供了简单的描述,比如“表示‘我爱你’的红色文本和带有‘ok’的按钮”,该人工智能仍然生成了适当的代码,显然它已经掌握了网页设计的基本要领,所受的训练却极为有限。
长期以来,人工智能给人们留下深刻印象的领域主要集中在电子游戏。很多例子都展示了算法在虚拟环境中的惊人表现。研究人员常常在电子游戏等空间中测试与磨练算法,以了解它们的潜力。
2019年,OpenAI因为一段视频而成为新闻焦点。视频中,一个由机器学习控制的角色正在玩捉迷藏,研究人员惊奇地发现“寻找者”学会了跳到物品上方进行“冲浪”,从而进入“躲藏者”的围栏,换句话说,“寻找者”成功地改变了游戏规则以获得利益。
反复试错的策略往往会带来各种有趣的行为,但并不总能保证成功。两年前,DeepMind 的研究员维多利亚·克拉科夫娜邀请博客读者分享人工智能解决棘手问题的经历,但要求的解决方案必须是不可预测或不可接受的。
她整理出了一长串引人入胜的例子。其中有一个游戏算法,在第一关结束时学会了自杀,以避免在第二关死亡,从而实现了在第二关不死的目标,这种方式特别令人印象深刻。另一个算法发现它可以在游戏中跳下悬崖并带走对手,从而获得足够的分数以获得额外生命,形成了无限循环的自杀策略。
纽约大学坦登工程学院的电子游戏人工智能研究者朱利安·托格里乌斯试图对此进行解释。他表示,这些都是“奖励分配”错误的典型例子。当人工智能被要求完成某件事时,它往往会找到一些奇怪且意想不到的方法来达到目标,并最终证明这些方法是有效的。人类通常不采取这样的策略,因为游戏规则和指导方法对我们至关重要。
托格里乌斯及其同事发现,当人工智能在特定条件下接受测试时,这种目标导向的偏见会显露出来。在最近的实验中,他的团队发现,被要求在银行进行投资的游戏角色会跑到虚拟银行大厅的一个角落,等待获取投资回报。托格里乌斯指出,这个算法已经将跑到拐角处与获得金钱回报联系在一起,尽管这种行为与实际获得的回报之间并无实质关联。
托格里乌斯表示,这有点像人工智能在形成迷信,在经历某种奖励或惩罚后,它们开始思考为何会得到这些结果。
这正是“强化学习”的一个陷阱。所谓“强化学习”指的是人工智能会根据其在环境中遇到的情况设计出错误的判断策略。人工智能并不清楚自己为何成功,它只是在基于习得的联想进行行动。这与人类文化早期阶段将祈祷仪式与天气变化联系起来的行为相似。
▲ 鸽子可以学会将食物与某些行为联系起来,而人工智能的行为表现出类似的耦联特征。
有趣的是,鸽子也会出现这样的行为。1948年,美国心理学家曾发表一篇论文,描述了一项不寻常的实验:将鸽子放在围栏内,间歇性给予食物奖励。这些鸽子开始将食物与它们当时的行为联系起来,有时是拍打翅膀,有时是舞蹈般的动作。随后,它们会重复这些行为,似乎期待着奖励的到来。
托格里乌斯所测试的游戏人工智能与心理学家所用的活体动物之间存在巨大差异,但托格里乌斯暗示,这其中似乎存在相似的机制。
