自新冠疫情暴发以来,全球研究团队相继推出了多种 AI 工具,旨在帮助检测新冠病毒或预测感染情况。
然而,荷兰马斯特里赫特大学与英国剑桥大学的两个研究团队独立测试了 647 种 AI 工具,包括 232 种和 415 种,结果显示没有一款适合临床应用,部分工具甚至可能造成伤害。

这一结果主要源于训练 AI 模型所用数据的质量问题。开发者使用的数据集中往往包含无效或错误的信息,使得 AI 学会了错误的判断方式。同时,开发者缺乏医学专业知识,难以识别其中的错误。
专家指出,只有开发者与临床医生紧密合作,才能最大限度地减少错误。此外,专家呼吁在应对全球公共卫生危机时,应加强“数据共享”,以便各国更好地应对疫情。
一、共 647 种 AI 工具被测试,均不适合临床使用
2020 年 3 月,COVID-19 开始在欧洲蔓延,当时人们对这一疾病知之甚少,导致医院陷入危机。马斯特里赫特大学的流行病学家 LauRe Wynants 曾研究流行病预测工具,她表示:“医生真的不知道如何管理这些患者。”
专家认为,机器学习算法有可能通过分析历史数据帮助医生做出诊断,从而拯救生命。LauRe Wynants 表达了对 AI 实用性的希望:“我认为 AI 可以发挥作用。”
全球的研究团队纷纷加紧研发,尤其是 AI 社区在紧急情况下推出了多款软件,许多人认为这些工具能够加快医院的诊断和分诊速度,为抗击疫情提供支持。然而,虽然数百种检测工具被开发出来,但没有一款真正发挥作用。
今年 6 月,英国国家数据科学和人工智能中心图灵研究所发布的报告总结了 2020 年底的研讨会讨论,明确指出 AI 工具在抗击新冠疫情中几乎没有实质性影响。两个研究团队的研究结果进一步支持了这一结论。
LauRe Wynants 和她的同事研究了 232 种用于预测或诊断新冠肺炎的算法,结果显示均不适合临床使用,只有两个算法可能在未来对临床检测有所帮助。该研究成果已在英国医学杂志(British Medical Journal)上发表,并随着新工具的发布和研究者的测试不断更新。
对结果感到震惊的 LauRe Wynants 表示:“我带着担忧开始这项工作,但结果超出了我的预期,让我非常恐惧。”

▲ 荷兰马斯特里赫特大学流行病学家 LauRe Wynants
剑桥大学的机器学习研究员 DeRek DRiggs 和其团队的研究同样得出了相似的结论。他们利用深度学习模型诊断新冠肺炎,通过胸部 X 射线和 CT 扫描预测患者的患病风险,研究了 415 种公开的 AI 工具,结果显示没有一款适合临床使用。
该研究成果已发表在《Nature Machine Intelligence》,论文题为《使用机器学习通过胸片和 CT 扫描检测和预测 COVID-19 的常见缺陷和建议》。DeRek DRiggs 表示:“这次疫情是对 AI 和医学的一次重大考验,但我们没有通过这一考验。”
尽管结果令人失望,LauRe Wynants 和 DeRek DRiggs 仍然相信 AI 有潜力帮助医生,但他们也担心错误构建的 AI 工具不仅无助于诊断,甚至可能有害,导致医生做出错误的判断或低估患者病情。
DeRek DRiggs 指出,关于机器学习模型的炒作和不切实际的期望使得这些工具被过早投入使用。LauRe Wynants 提到,研究中发现的一些 AI 工具已被医院使用,而某些工具则在被私人开发商推广。她对这些工具可能对患者造成的伤害表示担忧。
新冠疫情让研究人员意识到需要重新审视 AI 工具的构建方式。LauRe Wynants 说:“新冠疫情让这一问题成为公众关注的焦点。”
二、训练 AI 的数据错误太多,让 AI 学习结果出偏差
研究者发现,这些 AI 工具的问题多与开发者用于开发工具的数据质量有关。在疫情期间,治疗新冠肺炎的医生通常收集和共享相关信息,包括医学扫描图像,这些数据往往是工具开发者唯一可用的公共数据集,很多数据可能是错误标记或来源不明。
DeRek DRiggs 强调了“Frankenstein”数据集的问题,这些数据集是从多个来源拼接而成,可能存在重复项。这意味着某些工具在测试时的数据与训练时的数据相同,导致它们看起来比实际更准确。
开发者可能混淆了数据集的来源,错过了一些重要特征。例如,有些人在不知情的情况下使用了包含未感染儿童胸部扫描的错误数据,将其作为非新冠病毒感染病例的示例,导致 AI 学会识别儿童而非新冠病毒。
DeRek DRiggs 的团队尝试使用一个包含患者躺下与站立混合扫描的数据集进行训练,结果 AI 错误地学会了如何根据一个人的姿势来预测病情严重程度,因为躺下扫描的患者更可能病重。
研究者还发现,某些 AI 对医院用来标记扫描结果的文本字体产生反应,导致来自重症患者医院的字体成为预测新冠肺炎风险的指标。
事后看来,这些错误似乎很容易被发现。如果开发者意识到这些问题,可以通过调整模型进行修复。然而,很多工具都是由缺乏医学知识的 AI 研究人员开发,难以发现数据缺陷;或由缺乏数学技能的医学研究人员开发,难以通过专业知识弥补这些缺陷。
DeRek DRiggs 还提到了合并偏差(incorporation bias)的问题,即数据集标注时引入的偏差。例如,医学扫描的标记通常依赖于放射科医生的判断,这可能将医生的偏见嵌入数据集中。DeRek DRiggs 表示,使用 PCR 测试结果来标记医学扫描会更可靠,但医院往往没有足够的时间来关注这些细节。
LauRe Wynants 指出,这些已知错误并未阻止某些工具被匆忙投入临床实践,目前尚不清楚具体哪些工具正在被使用,也不知道它们的使用方式。医院有时声称仅在研究中使用这些工具,这使得研究人员难以评估医生对 AI 工具的依赖程度。
LauRe Wynants 曾向一家销售深度学习算法的公司索要其方法的信息,但未获得回应。后来,她从与该公司相关的研究人员那里获得了一些已发表的模型,遗憾的是,这些模型均存在较高的偏见风险。
“我们实际上并不知道这家公司做了什么。一些医院甚至与医疗 AI 供应商签署了保密协议。”LauRe Wynants 表示。当她询问医生使用的算法或软件时,医院会告知医生无法透露相关信息。
三、AI 开发者要与临床医生合作,专家呼吁“数据共享”
更高质量的数据可能有助于解决这一问题,但在危机时期提出这一要求并不容易。DeRek DRiggs 表示,利用现有的数据集至关重要,AI 开发团队应与临床医生进行更紧密的合作。开发者应分享他们的模型,并公开训练过程,以便他人能够测试并正确使用这些模型。
“这是我们当前能做的几件事情,可能会解决我们发现的 50% 的问题。”DeRek DRiggs 说。
总部位于伦敦的全球健康研究慈善机构 Wellcome Trust 的临床技术团队负责人 Bilal Mateen 认为,标准化格式将使数据获取更加容易。
LauRe Wynants、DeRek DRiggs 和 Bilal Mateen 都发现,许多开发者急于推出自己的模型,而不是与他人合作或改进现有模型。这导致全球开发者集体努力创造了数百种无用工具,而不是共同开发几种经过训练和测试的有效工具。
LauRe Wynants 表示:“这些模型非常相似,它们都使用了几乎相同的数据。”
