互联网资讯 · 2024年2月17日

OpenAI组建新团队推动AI模型与人类价值观对齐

1月17日消息,OpenAI宣布成立一支名为“集体对齐”的新团队,计划围绕人工智能模型的行为规范展开更系统的研究与实践。

这支团队将主要由研究人员和工程师组成,重点设计和落地一套收集公众意见的机制,用于引导模型训练和行为塑造,以应对偏见、失真等潜在问题。

OpenAI表示,该团队的目标是建立一个能够汇集并“编码”公众对模型行为看法的系统,并将这些反馈纳入产品与服务的设计之中。按照这一思路,未来的人工智能模型将更有可能在行为层面贴近人类普遍认可的价值取向。

为推进相关工作,OpenAI正在招募具备不同技术背景的研究工程师加入团队。公司称,新团队将与外部顾问及内部其他团队协作,开展试点项目,并把原型方案整合进模型开发流程中。

“集体对齐”项目的延续

这一团队并非凭空出现,而是OpenAI此前相关探索的延伸。早在去年5月,OpenAI就启动过一项公共项目,目的是资助建立一种“民主程序”的实验,用来讨论和确定人工智能系统应当遵循的规则。

当时,该计划面向个人、团队和组织提供支持,鼓励其开发概念验证方案,回应人工智能护栏、治理机制以及行为边界等问题。

作为新团队创始成员之一,研究工程师泰纳·埃伦杜表示,随着更强大的智能模型逐步融入社会运行,人们能够直接表达意见将变得越来越重要。

探索验证真实用户参与的方式

在如何确保反馈来自真实人类而非机器人方面,OpenAI也在考虑更多技术方案。报道提到,公司曾考虑与Worldcoin合作,借助其“区分人类与人工智能机器”的能力,为投票和意见收集提供身份验证支持。

技术发展加速,外界担忧同步增加

自2022年底ChatGPT推出以来,生成式人工智能迅速进入大众视野。凭借通过简单提示生成文本的能力,ChatGPT成为增长速度极快的消费级应用之一,也进一步放大了外界对大模型能力的关注。

与此同时,AI技术的快速演进也带来了明显争议。外界担忧主要集中在几个方面:

  • 生成深度伪造图片和误导性内容的能力不断增强;
  • 在重要公共事件前,错误信息扩散风险上升;
  • 模型可能因训练数据影响而带有固有偏见;
  • 部分系统输出中已被发现存在种族或性别歧视倾向。

尤其在大型选举等敏感场景临近时,这类问题更容易引发社会对AI治理和责任机制的讨论。

已公开部分资助成果与代码

在最新说明中,OpenAI还回顾了此前受资助项目的进展,包括视频聊天界面、面向AI模型的众包审计平台,以及一种“将信念映射为可用于微调模型行为维度”的方法。

此外,OpenAI还对外公开了这些项目所使用的代码,以及各项提案的简要介绍,希望借此推动更多外部研究参与相关讨论。

商业利益与治理立场仍受审视

尽管OpenAI试图强调,这类项目并不直接服务于公司的商业利益,但外界对此仍保持审慎态度。原因之一在于,其管理层此前曾多次对部分监管路径提出批评,认为人工智能的发展速度过快,传统权威机构未必能够及时、充分地完成治理。

在这一背景下,OpenAI提出通过更广泛的社会参与、众包反馈以及多方协作的方式,为AI行为规范提供参考。这种做法能否真正兼顾效率、公平与代表性,仍有待后续实践验证。