根据麻省理工学院的一项研究,深度学习正接近计算能力的极限。
深度学习依赖于大量数据和算力,这两个因素是推动当前人工智能浪潮的重要动力。然而,最新的研究显示,深度学习的进展可能已经逼近算力的上限。
该研究由麻省理工学院、MIT-IBM Watson AI实验室、延世大学安德伍德国际学院及巴西利亚大学的研究人员共同进行。他们发现,深度学习的进展在很大程度上依赖于算力的增长。为了实现进一步的进步,深度学习需要更高计算效率的模型,这可以通过对现有技术的改进或全新方法的开发来实现。

论文链接:https://aRxiv.oRg/pdf/2007.05558.pdf
研究作者指出:“我们发现,深度学习的高计算成本并非偶然,而是从设计之初就注定的。虽然灵活性使深度学习能够有效建模各种现象并超越专家模型,但这也导致了高昂的算力开销。尽管如此,深度学习模型的实际计算负担增长速度远超理论极限,这意味着有可能出现显著的改进。”
深度学习是机器学习的一个分支,其算法受到人类大脑结构和功能的启发。这些算法通常被称为人工神经网络,由多个神经元和网络层组成,负责将信号传递给其他神经元。输入数据在不同层之间流动,并逐步“调优”网络,以调整连接的权重。神经网络通过提取数据集特征和识别跨样本的趋势来学习进行预测。

研究人员分析了1058篇来自aRXiv等来源的论文,旨在理解深度学习性能与计算之间的关系,特别是在图像分类、目标检测、问答、命名实体识别和机器翻译等领域。
他们进行了两项有关算力需求的分析:
每个神经网络遍历所需的算力,或单次遍历的浮点运算数;
训练模型所用的硬件负载,即通过处理器数量、计算速率和时间计算的硬件算力。
研究发现,在算力几乎相同的情况下,除了英德机器翻译任务外,所有基准上均出现了“高度统计学意义”的曲线和“强大的解释能力”。特别是在目标检测、命名实体识别和机器翻译领域,尽管输出结果的改进相对较小,但硬件负载却显著增加,算力对模型在ImageNet基准数据集上的准确率贡献了43%。
研究人员估算,三年的算法进步相当于算力增长的10倍。“我们的研究结果表明,在深度学习的多个领域,训练模型的进展依赖于算力的大幅提升。另一种可能性是,算法改进本身也需要额外的算力支持。”
在研究过程中,研究人员还推测了在不同理论基准上打破记录所需的算力、经济成本和环境成本。
根据最乐观的估计,降低ImageNet图像分类误差需要105倍的算力增长。

去年六月,机器之心发布的报告估计,华盛顿大学的GROVeR假新闻检测模型训练两周的成本为2.5万美元。而最近发布的OpenAI GPT-3模型的训练成本飙升至1200万美元,谷歌BERT的训练成本约为6912美元。
去年六月,来自马萨诸塞大学阿默斯特分校的研究者发现,训练和搜索特定模型所需的算力排放了62.6万磅的二氧化碳,相当于美国汽车平均一生排放量的五倍。
“我们无法预测这些目标的计算需求……硬件、环境成本和金钱成本将高昂到难以承受。以更经济的方式实现目标,需要更高效的硬件和算法或其他改进。”
研究人员提到,深度学习在算法方面的改进已有先例。例如,谷歌TPU、FPGA和ASIC等硬件加速器的出现,以及通过网络压缩和加速技术降低计算复杂度。
研究还引用了神经架构搜索和元学习,这些方法利用优化找到擅长解决特定问题的架构,从而实现计算效率的提升。
OpenAI的一项研究指出,自2012年以来,训练AI模型达到ImageNet图像分类任务相同性能所需的算力每16个月减少一半。此外,谷歌的Transformer架构超越了之前的SOTA模型seq2seq(同样由谷歌开发),后者的计算量是前者的1/64。
研究人员在论文结尾写道:“深度学习模型所需算力的爆炸式增长结束了AI寒冬,并为更广泛任务上的计算性能设定了新的基准。然而,深度学习对算力的巨大需求限制了以现有形式提升性能的可能性,尤其是在当前硬件性能放缓的时代。”
因此,研究人员认为,算力的极限可能会促使机器学习向比深度学习更高效的技术转型。
ReddIT热议
这一话题及相关论文在ReddIT等社交平台引发了广泛讨论。支持者众多,但质疑的声音也不少。
有网友表示,关于深度学习算法复杂性的讨论虽然尚未成为主流,但很快将成为焦点,发帖者对此表示赞同,并认为近年来由于计算能力的显著提升,机器学习领域取得了众多突破。不过,大家可能会很快关注可持续性和算法效率的问题。

与此同时,不少网友围绕研究中的一些细节展开了讨论。一位网友对论文中提到的“硬件性能提升正在放缓”表示质疑:“事实真的如此吗?特别是从USD/TFLOPS和Watts/TFLOPS的角度来看。”
发帖者对此进行了回应,表示这似乎是作者的论点。论文作者在文中提到:“深度学习模型所需算力的爆炸式增长结束了AI寒冬,并为更广泛任务上的计算性能设定了新的基准。”但遗憾的是,论文中并未提供相关参考文献。

还有网友直言不讳:“虽然这是一个越来越重要的讨论话题,但我并没有从这项研究中看到任何‘新’见解。实际上,自2012年以来,我们都清楚一些历时10-30年的旧方法之所以依然能够运行,主要还是得益于算力。”
在他看来,众多深度学习方法面临的计算限制显而易见。如果有人将GPT-3的计算能力提高100倍,可能就能得到GPT-4。目前,许多科研实验室受到客观因素的限制,无法获取更大的算力。

最后,有网友认为,无论是从理论基础还是社会影响等多个层面来看,机器学习领域“放缓脚步”都是一件好事。

