群体学习超越中央协调员的联邦学习
目前,在某些疾病的诊断领域,人工智能的准确性已经超越了医生的水平。
这些可靠的诊断结果得益于建立在庞大数据集上的机器学习。
然而,实际上可用于训练的医疗数据非常分散,试图将全球的数据汇集在一起会引发对数据所有权、隐私、保密和安全等问题的担忧,甚至可能引发数据垄断。
虽然联邦学习等常用方法在一定程度上可以解决这些问题,但该模型的参数集中处理造成了“权力”的集中,同时其星形架构也降低了容错性。
那么,是否还有更好的解决方案呢?
答案是肯定的!NatuRe最近在封面上介绍了一种名为SwaRM learning(群体学习,SL)的全新机器学习方法。

该方法结合边缘计算和基于区块链的对等网络,摒弃了“中央协调员”的模式,超越了传统的联邦学习,能够在不违反隐私法规的前提下整合来自全球的医疗数据。
研究人员通过四种异质性疾病(结核病、COVID-19、白血病和肺部病变)验证了SwaRM learning方法在使用分布式数据进行疾病诊断方面的可行性。
那么,具体是如何实现的呢?
群体学习方法采用去中心化的架构,并利用私有许可的区块链技术来实现。
整个SwaRM网络由多个SwaRM边缘节点构成,这些节点通过网络共享参数,每个节点利用私有数据和网络提供的模型进行自身模型的训练。

该方法提供了安全措施,以通过私有许可区块链技术确保数据的所有权、安全性和机密性。

只有经过预先授权的参与者才能加入网络,新节点的加入是动态的,通过适当的授权措施识别参与者,并通过区块链智能合约进行注册,允许参与者获取模型并执行本地模型训练。
当本地模型训练达到预设的同步条件后,便可以通过SwaRM的API交换模型参数,并在下一轮训练开始前合并新的参数配置以更新模型。

△ 群体学习与其他机器学习方法的架构对比
因此,该群体学习方法具备以下特点:
数据所有者的医疗数据保留在本地;不需交换原始数据,从而减少数据流量;提供高水平的数据安全保护;无需中央管理员即可确保分散成员安全、透明和公平地加入;允许所有成员平等地合并参数;保护机器学习模型免受攻击。
为了验证该方法在基于分布式数据进行疾病诊断方面的可行性,研究人员用其诊断了四种疾病。
在区分轻度和重度COVID-19时,其表现优于单个节点。
首先是白血病的诊断。
研究人员将超过12000个样本数据“孤立”到各个节点,以模拟现实世界中分布在不同医疗中心的数据。
然后利用群体学习训练这些数据以诊断未知患者,结果显示无论如何改变各节点的样本分布,群体学习方法的诊断准确率均优于单个节点。

接下来,使用群体学习识别结核病或肺部病变患者,结果同样优越,即使在减少训练样本数量后,群体学习的预测效果仍然优于任何单一节点。
紧跟疫情,研究人员还检测了群体学习在新冠病毒诊断中的效果。

结果显示,在区分轻度和重度COVID-19时,群体学习的表现再次优于单个节点。
最后,研究人员指出,作为一种去中心化的学习方法,群体学习有望取代当前跨机构医学研究中的数据共享模式,在确保数据隐私的同时,帮助人工智能获得更丰富多样的数据,从而提高疾病诊断的准确率。
