互联网资讯 · 2023年11月29日 0

苹果增加对话式AI的投资,每日预算提升至数百万美元

据外媒报道,苹果正在显著增加用于人工智能计算的预算,现已提升至每天数百万美元。这一举措旨在开发新功能,使iPhone用户能通过简单的语音指令自动完成多步骤的任务。例如,用户可以指示Siri语音助手从最近拍摄的五张照片中创建GIF动图并发送给朋友,而现在这一过程需要手动完成。

知情人士透露,早在四年前,苹果的人工智能主管约翰·詹南德里亚便被授权建立团队,专注于开发大语言模型(LLM)这一对话式人工智能技术。当时,这项技术并未成为软件行业的焦点。随着OpenAI在去年推出聊天机器人ChatGPT,人们才意识到苹果在这一领域具备前瞻性,ChatGPT的发布也促使了大语言模型的蓬勃发展。

尽管詹南德里亚曾对人工智能语言模型驱动的聊天机器人应用持怀疑态度,苹果依然为这一领域的繁荣做好了准备,得益于詹南德里亚对公司软件研究文化的变革。

这些变革开始显现成果,因为大语言模型的出现可能会彻底改变人们创作各类作品的方式,包括计算机程序、幻灯片演示以及书籍等。这项技术还预计能够自动化许多繁琐的文本处理任务,如摘要撰写和企业IT票据处理等。

苹果的“基础模型”团队由几位曾在谷歌工作多年的工程师组成,詹南德里亚在加入苹果之前是他们的主管。该团队由庞若明领导,他于2021年加入苹果,之前在谷歌工作了15年,期间参与了人工智能研究部门的领导。

尽管“基础模型”团队目前规模仍然较小,约有16人,但用于培训苹果最先进模型的预算已经增加至每天数百万美元。相比之下,开发ChatGPT的OpenAI首席执行官萨姆·奥特曼曾表示,该公司在数月内花费了超过1亿美元来培训GPT-4,这是支持其聊天机器人的最先进软件。

苹果的“基础模型”团队承担着类似谷歌和Meta等公司人工智能团队的角色,负责构建人工智能模型,而其他团队则将这些模型应用于公司产品中。

此外,据悉苹果还组建了另外两个相对较新的团队,致力于开发语言和图像模型。公司最近发布的一份人工智能研究报告以及LinkedIn上的员工资料显示,存在一个“视觉智能”团队,专注于能够生成“图像、视频或3D场景”的软件。

另一个团队专注于多模态人工智能的长期研究,这种模型能够识别和生成图像、视频或文本。该团队的一位领导者是乔恩·什伦斯,他于2021年底加入苹果,之前在谷歌从事人工智能工作。

苹果的“基础模型”团队已经开发出多个先进模型,并正进行内部测试。知情人士表示,一款基于大语言模型的苹果聊天机器人可能最终会与苹果的appleCare客户互动,appleCare是该公司提供保修和技术支持的服务。

另外,Siri团队也计划整合大语言模型,使苹果的智能语音助手能够以目前无法实现的方式自动完成某些复杂任务,比如前面提到的使用简单指令创建和发送GIF。此新功能与苹果的快捷方式应用Shortcuts相关,预计将与新版本的iPhone操作系统一同发布。知情人士透露,谷歌也在努力将其大语言模型与语音助手整合,以处理更复杂的任务。

据悉,苹果“基础模型”团队的成员认为,其先进的大语言模型AJAX GPT的功能超过了OpenAI的GPT 3.5,该模型是支持ChatGPT最初版本的基础。自那以后,OpenAI推出了一系列更强大的模型。

关于苹果如何在其产品中整合大语言模型,目前仍无明确细节。据多位离职的苹果机器学习工程师称,公司领导层更倾向于在设备上运行软件,以提升隐私和性能,而非依赖云服务器。

然而,这一目标可能难以实现。一位知情人士透露,AJAX GPT已经训练了超过2000亿个参数。参数数量反映了机器学习模型的复杂性,数量越多意味着模型越复杂,需更多存储和计算能力。一个拥有2000多亿个参数的大语言模型,可能不适合在iPhone上运行。

缩小大语言模型规模的先例已有。例如,谷歌的PaLM 2有四种尺寸,其中一种可在设备上使用,另一种则可离线使用。

苹果发言人对此消息未作评论。

詹南德里亚在苹果的同事们称其为J.G.,他最初加入苹果的目的是为了改进Siri,并为公司的软件注入更多机器学习功能。尽管他曾多次对大语言模型驱动的聊天机器人的潜在用途持怀疑态度,但知情人士称,在过去一年中,看到一些内部演示后,他开始承认这项技术的能力。

苹果“基础模型”团队的成立源自詹南德里亚的决定,他希望让苹果更加灵活,让员工在研究和发表论文方面拥有更多自由。此前,对这些做法的限制影响了苹果吸引人才的能力,尽管该公司早期在产品中成功应用了人工智能技术。

自2018年加入苹果以来,詹南德里亚帮助从谷歌招聘了关键工程师和研究人员,并支持更多使用谷歌的云服务,包括安装谷歌开发的人工智能芯片的服务器,以训练苹果的机器学习模型,提升Siri和其他产品的功能。

庞若明在神经网络方面的研究成果吸引了众多追随者。神经网络是机器学习的一个子集,涉及训练软件识别数据中的模式与关系,类似于人类大脑的工作方式。庞若明的一些著名研究探讨了神经网络如何与手机处理器协同工作,以及如何使用并行计算训练神经网络。

庞若明对苹果的影响可通过AXLeaRn体现,这是他的团队在过去一年中开发的内部软件,用于培训AJAX GPT。AXLeaRn是一个机器学习框架,能够快速训练机器学习模型,部分基于庞若明的研究,并针对谷歌的张量处理单元进行了优化。

AXLeaRn是JAX的一个分支,JAX是谷歌研究人员开发的开源框架。如果将苹果的AJAX GPT视作一栋房屋,AXLeaRn则是蓝图,而JAX是绘制蓝图的工具。苹果用于培训大语言模型的数据主要源自建筑行业,目前尚未公开。

今年7月,苹果“基础模型”团队悄然将AXLeaRn的代码上传至Github,公众可使用该代码培训自己的大语言模型,而无需从头开始构建。苹果公开发布AXLeaRn代码的原因尚不明确,但公司此举通常希望其他工程师能对模型进行改进。这一做法对于苹果来说较为罕见,尤其是在詹南德里亚到来之前,该公司一直以隐秘著称。

原先由荷兰计算机科学家阿瑟·范·霍夫领导的团队,现已成为苹果“基础模型”团队的核心。据熟知霍夫的人士称,他曾是开发Java的太阳微系统公司团队的早期成员,后成为知名企业家。霍夫于2019年加盟苹果,最初致力于开发代号为“黑鸟”的新版Siri,但该版本最终被放弃。

随后,霍夫的团队开始专注于大语言模型的构建,目标是将其用于黑鸟的基础版本。该团队最初仅有几名员工,其中最著名的包括两名专注于自然语言处理的英国研究人员汤姆·冈特和托马斯·尼克森,他们均在牛津大学获得高等学位,并于2016年加入苹果。

据知情人士透露,2021年庞若明加入苹果,帮助培训尖端的大语言模型。他与其他苹果研究人员不同,被特殊授权留在纽约,为公司的机器学习团队建立新的前哨基地。几个月后,苹果聘请谷歌前人工智能高管达芙妮·梁来监督霍夫的团队,并招募谷歌研究员萨米·本吉奥领导一个专注于长期机器学习研究的平行团队。

如今,庞若明已接管“基础模型”团队,而霍夫则在今年早些时候开始无限期休假。知情人士透露,庞若明团队的几名成员目前常驻纽约。

随着大语言模型在机器学习领域的重要性日益凸显,苹果内部越来越意识到这一点。知情人士指出,OpenAI的GPT-3于2020年6月发布,促使苹果机器学习团队要求更多资金来训练自己的模型。

为了节省成本,苹果管理层历来鼓励机器学习工程师使用谷歌的云计算服务,而非亚马逊,因谷歌的费用较低。据一位熟悉相关讨论的离职苹果高管透露,谷歌高管曾向苹果表示,云服务定价较低在一定程度上反映了两家公司之间广泛的商业合作。根据协议,谷歌搜索成为苹果Safari浏览器的默认搜索提供商。多年来,苹果一直是全球最大的云服务器租赁商,并已成为谷歌的重要客户。