强化学习能否实现AGI？Sutton：奖励机制可达成多种目标

在人工智能领域，计算机科学家们花费了数十年时间设计和开发各种复杂机制与技术，旨在复现视觉、语言、推理和运动技能等智能能力。尽管这些努力使得人工智能系统能够在特定环境中有效解决一些问题，但迄今为止，尚未开发出与人类或动物相当的智能系统。

具备与人类同等或超越人类智慧的人工智能被称为通用人工智能（AGI）。这类系统被认为能够执行人类能够完成的任何智能任务，因此是人工智能研究的核心目标之一。目前，通用人工智能的研究持续推进。最近，强化学习的专家David Silver和Richard Sutton在一篇名为《Reward is Enough》的论文中提出，智能及其相关能力可以被理解为奖励最大化的驱动。

实现AGI，强化学习就够了？Sutton：奖励机制足够实现各种目标

论文链接：
https://www.sciencedirect.com/science/article/pii/S0004370221000862

该研究指出，奖励机制足以驱动自然界和人工智能领域的智能行为，包括知识、学习、感知、社交智能、语言能力、泛化能力和模仿能力。研究者认为，通过奖励最大化和试错经验，便可以开发出具备智能行为的系统。因此，他们得出结论：强化学习将是推动通用人工智能发展的重要力量。

实现AGI，强化学习就够了？Sutton：奖励机制足够实现各种目标
AI 的发展路径

构建人工智能的一种常见方法是尝试在计算机中模拟智能行为的某些元素。以对哺乳动物视觉系统的理解为例，这推动了多种人工智能系统的开发，使其能够进行图像分类、定位物体和定义物体边界等任务。同时，对语言的理解也促成了自然语言处理系统的创建，包括问答、文本生成和机器翻译等。

然而，这些实例均属于狭义人工智能，旨在执行特定任务，而非解决广泛问题。一些研究者认为，组合多个狭义人工智能模块能够产生更强大的智能系统，以应对复杂问题。但在该研究中，研究者认为，创建通用人工智能的关键在于重新构建一种简单而有效的规则。他们首先假设，奖励最大化作为一个通用目标，足以驱动大部分自然智能和人工智能中的智能行为。

这一过程基本上反映了自然界的运作方式。经过数十亿年的自然选择和随机变异，生物不断进化，只有那些能够应对环境挑战的生物得以生存与繁衍，其余则被淘汰。这一简单而有效的机制促使生物进化出多种技能和能力，以便感知、存活、改变环境和进行交流。

研究者指出，未来的人工智能体将在复杂环境中生存，其复杂程度与人类和动物所面临的自然世界相当。因此，成功的标准必须依赖于智能体所展现的相关智能能力。从这个角度看，奖励最大化的目标涵盖了众多甚至可能是所有的智能目标。此外，研究者认为，通过与环境的交互学习，实现奖励最大化的方式是最普遍和可扩展的。

奖励足够了

与许多交互式人工智能方法相似，强化学习遵循一种协议，将问题分解为两个时间上交互的系统：决策智能体（解决方案）和受到这些决策影响的环境（问题）。这与其他专用协议形成对比，后者可能涉及多个智能体、环境或其他交互模式。

基于强化学习的理念，该研究认为，奖励足以表达多种目标。智能的不同形式可以视为朝向对应奖励最大化的努力，而与每种智能形式相关的能力将在追求奖励的过程中自然而然地生成。因此，研究者提出一个假设：所有智能及其相关能力都可以理解为“奖励就足够了”。智能及其相关能力可以看作是智能体在其环境中追求奖励的行为。

这个假设至关重要，因为如果成立，那么一个奖励最大化的智能体在实现目标的过程中，便能隐式地培养与智能相关的能力，具备卓越智能的智能体将能够“适者生存”。研究者从多个方面探讨了“奖励就足够了”这一假设。

实现AGI，强化学习就够了？Sutton：奖励机制足够实现各种目标
知识与学习

该研究将知识定义为智能体内部的信息，比如用于选择动作、预测累积奖励或未来观测特征的函数参数。某些知识为先验知识，而另一些则是通过学习获得的。奖励最大化的智能体将根据环境情况获得前者，例如通过自然智能体的进化和人工智能体的设计，并通过学习获取后者。随着环境的日益丰富，需求将逐渐向学习知识倾斜。

感知能力

人类需要多种感知能力来积累奖励，例如区分朋友和敌人、开车时进行场景分析等。这可能需要多种感知模式，如视觉、听觉、嗅觉、躯体感觉和本体感觉。

从奖励最大化的角度考虑感知，可能会支持更广泛的感知行为，包括以下具有挑战性和现实意义的能力：

动作与观察往往交织在多种感知形式中，例如触觉、视觉扫视、物理实验和回声定位等；
感知的效用通常依赖于智能体的行为；
获取信息可能会产生显式和隐式的成本；
数据的分布往往依赖于上下文，在丰富环境中，潜在数据的多样性可能超出智能体的处理能力或现有数据的数量，这需要通过经验获取感知；
许多感知应用无法获得标记数据。

社交智能

社交智能是理解其他智能体并与之有效互动的能力。根据该研究的假设，社交智能可以被视为在智能体环境中某一智能体的累积奖励最大化。按照这一标准的智能体-环境协议，一个智能体可以观察其他智能体的行为，并可能通过自身行为影响这些智能体，正如它观察并影响环境的其他方面一样。能够预测和影响其他智能体行为的智能体通常能够获得更大的累积奖励。因此，在需要社交智能的环境中（如包含动物或人类的环境），奖励最大化将能够产生社交智能。

语言能力

语言一直是自然与人工智能研究的重要主题。由于语言在人类文化和互动中占据主导地位，智能本身的定义常常以理解和使用语言能力为前提，尤其是自然语言。

然而，当前的语言建模不足以产生更广泛的与智能相关的语言能力，包括：

语言通常是上下文相关的，既与所说内容相关，也与智能体周围环境中发生的其他事情息息相关，有时需要通过视觉和其他感官模式进行感知；
语言常常与其他表达行为交织，如手势、面部表情和语调变化等；
语言的使用是有目的的，并能对环境产生影响，例如，销售人员会调整语言以最大化销售；
语言的具体含义和效用因智能体的境况和行为而异，例如，矿工可能需要关于岩石稳定性的语言，而农民则可能需要关于土壤肥力的语言；
在丰富环境中，语言处理不可预见事件的潜在用途可能超出任何语料库的能力，这些情况下，可能需要通过经验动态解决语言问题，例如开发新技术或找到解决新问题的方法。

该研究认为，基于“奖励就足够了”的假设，丰富的语言能力，包括上述所有更广泛的能力，都应源于对奖励的追求。

泛化能力

泛化能力通常被定义为将一个问题的解决方案转化为另一个问题的能力。例如，在监督学习中，泛化可能专注于将从一个数据集（如照片）学习到的解决方案转移到另一个数据集（如绘画）。

根据该研究的假设，泛化可以通过在智能体与单一复杂环境之间的持续交互流中最大化累积奖励来实现，这依然遵循标准的智能体-环境协议。人类世界等环境需要泛化，因为智能体在不同时间会面临环境的不同方面。例如，一只以水果为食的动物可能每天都会遇到一棵新树，并且可能会经历受伤、干旱或入侵物种的威胁。在这些情况下，动物必须通过泛化过去的经验快速适应新状态。动物面临的不同状态并非被整齐划分为不同标签的任务，状态的形成依赖于动物的行为，并可能结合在不同时间尺度上重复出现的各种元素。丰富的环境同样要求智能体从过去的状态泛化到未来的状态，并考虑所有相关复杂性，以有效积累奖励。

模仿能力

模仿是与人类和动物智能相关的重要能力，能够帮助他们快速获得其他能力，如语言、知识和运动技能。在人工智能中，模仿通常通过行为克隆的方式表现出来，即从演示中学习，并提供关于教师行为、观察和奖励的明确数据。相比之下，自然的观察学习能力则包括从观察其他人类或动物的行为中学习，且不要求直接接触教师的行为、观察和奖励。这表明，在复杂环境中，可能需要更广泛和现实的观察学习能力，而不仅仅是通过行为克隆进行直接模仿，具体包括：

其他智能体可能是智能体环境的组成部分（例如，婴儿观察其母亲），而无需假设存在包含教师数据的特殊数据集；
智能体可能需要学习自己状态与其他智能体状态之间的关联，或自己动作与其他智能体观察结果之间的关系，这将产生更高的抽象层次。

ad

近期文章

互联网资讯 / 人工智能 · 2023年12月12日 0

强化学习能否实现AGI？Sutton：奖励机制可达成多种目标

You may also like...

发表评论取消回复

互联网资讯 / 人工智能 · 2023年12月12日 0

You may also like...

长城葡萄酒城湖北站“N+健康生活”系列活动圆满结束

黄仁勋：若DeepSeek在某芯片上首发 对美国将是灾难

海纳AI面试官被评为北京市人工智能行业发展典型案例

发表评论 取消回复

黄仁勋：若DeepSeek在某芯片上首发对美国将是灾难

发表评论取消回复