互联网资讯 / 人工智能 · 2023年11月23日 0

模型耗资巨大,指导多个项目,最终发现负样本为空

在当今深度学习模型的应用中,人们常常提到其黑箱特性——输入后便可得出结果,但其中的决策过程却不为人知。这使得我们无法确切理解深度学习的决策依据和结果的可靠性。近几年来,越来越多的研究致力于构建可信赖的机器学习方法,并取得了一定成效。

但最近发生的一起事件却提醒我们,许多被广泛使用的机器学习模型出现问题的原因往往并不在于算法本身。数据的一点失误就可能导致令人哭笑不得的结果,而更为严重的是,这类问题造成的损失往往超过了所谓“模型不可解释”所带来的影响。

上周,美国宾夕法尼亚州的历史保护官员与交通部门之间进行了一系列邮件往来,邮件中充满了悲伤、困惑和沮丧的情绪。这一丑闻的影响仍在持续,在官方回应之前,我们还无法进一步了解情况(尽管在当地考古学界,这一事件已是人尽皆知)。

一个价值36.5万美元的机器学习模型因此而失去了意义。

事情究竟是如何发生的呢?

五年前,一些创意者向宾州交通部提议,为史前考古遗址创建一个全州范围的预测模型。最终,政府选择与一家大型工程公司合作,后者在考古调查方面投入了大量资金。

模型花费几十万刀,指导无数项目,才发现负样本用的是null?

根据合同,这家公司承诺提供一款功能强大的模型,耗资36.59万美元,该模型还整合了GIS(地理信息系统)叠加分析,结果将供考古学家使用。

模型花费几十万刀,指导无数项目,才发现负样本用的是null?

自那以来,宾夕法尼亚州交通部门的绝大多数项目以及所有需要进行文化资源调查的项目,在启动前均依赖于这一机器学习模型的推断结果。

模型花费几十万刀,指导无数项目,才发现负样本用的是null?

从数据准备到模型选择,再到性能测试,这一项目的进展看似顺利,但一旦错误被揭露,情况便变得令人不堪。

他们将待预测区域视为负样本

在2013年至2015年间,项目承包商花了一年半的时间向宾州交通部门交付了一个模型及7册文档。

不幸的是,似乎至今没有人仔细阅读过这些文档。模型的输出结果似乎毫无意义,而其背后的原因更是令人惊讶。

模型花费几十万刀,指导无数项目,才发现负样本用的是null?

咨询公司将未调研的土地当作负样本数据集,然而,这些土地恰恰是模型需要预测的区域。一个耗资超过30万美元的模型,却真实地包含这样的错误。

模型花费几十万刀,指导无数项目,才发现负样本用的是null?

无论如何,在一个结合了回归和随机森林的模型中使用空值数据都是不恰当的,这些数据本不应被用作负样本。即使这些空值存在于自变量中,而非因变量,它们仍然可能对模型的推理结果造成严重影响。

他们在项目检查中未遵循最佳数据处理实践

那么,为什么开发团队的数据科学家在辛勤工作了一年半后,却未能意识到他们在第一步中就犯下了错误?这与他们检查项目的方式密切相关。

通常,检查的金标准是留出一部分随机选择的数据集。只需在训练模型后,便可验证模型在真实数据上的表现。

模型花费几十万刀,指导无数项目,才发现负样本用的是null?

显然,在这一事件中,相关研究人员并未进行这样的验证。也许他们使用了一些不为人知的统计方法,但这仍然不得而知。

他们将已知地点视作随机采样结果

众所周知,即使在一个项目区域内,土地的采样率并不均等。假设有100英亩土地,其中50英亩为高概率区域、50英亩为低概率区域,且以不同间隔(如15米或30米)进行测试,这意味着80%的测试是在高概率区域进行的。因此,80%的站点应在高概率区域找到。

因此,一些已知站点并非来自随机采样的土地,而是人们认为能够发现它们的位置。

大多数考古学家对此有直觉认识,这一点非常重要,因为这些已知正样本数据集的自变量分布已用于统计测试,而这种分布存在偏差,数据科学家却未能识别这些偏差。

因此,我们需要留出一部分数据。

项目管理缺失?

花费36.5万美元并不意味着只需让承包商在办公室中独自工作,而不需进行管理。

追溯到2014年初,该项目在向宾州交通部门提交的第三卷文档中,已存在致命错误(使用空值数据作为负样本数据)。难道这个项目无人监管吗?为什么在收取数十万美元之前,该融合了GIS与机器学习的模型未受到同事或上级的关注?

交通部门是否尽到了职责?

交付文档后,宾州交通部门中又有谁仔细阅读过这些文档?作者猜测可能没有人认真阅读,也没人能理解这些文档。但这只是推测,我们更愿意相信这些文档被阅读过,只是阅读不够仔细。

针对该模型中的重大错误,任何接受过大学统计学课程的人都能识别出问题。然而,正如有人指出的,考古学家通常缺乏相关数学知识,因此可能没有人能提出这些错误。

教训

这一错误浪费了纳税人36.5万美元,显示出美国交通部门与提供该模型的公司在质量控制方面的粗心,也表明一些存在问题的模型仍在关键的大型项目中被使用。

坦率地说,若想要一个预测模型,项目预算的3-5%就足够了。简化模型设计,使其易于更新和测试,即使这个模型没有大量质量控制问题,简单的模型也未必逊色于复杂的数学模型。

揭露此事的MediuM博主ARchAIc InquiRies表示,他至今仍在等待SHPO和DOT的回复。他特别强调,他并不在该州工作,也没有近期的计划,他写这篇批评文章并未获得任何报酬。他的动机很简单:作为一名专业人士,他对这个模型因缺乏监管而用于政策指导感到尴尬。

模型花费几十万刀,指导无数项目,才发现负样本用的是null?

机器学习推断结果的错误可能造成不同程度的损失,这里可能意味着一些古人类遗迹被忽略。然而,更可怕的是,在机器学习技术广泛应用的今天,这种错误屡见不鲜。

在社交网络上,宾州算法事件在机器学习圈子中引起了广泛讨论,有人表示:“我遇到的大多数数据科学家,对于这种错误推理(数据泄露)的问题完全没有意识,并且由于对机器学习的无条件信任,甚至相信算法多于自己的领域知识。”

另一位Reddit用户SteReoisoMeR提到:“我认识一位政府机构的数据科学家,曾多次需要向他解释数据科学领域中的基本概念。我不会指出他在哪个机构,但当美国人的生命受到威胁时,这个机构往往是人们首先寻求帮助的地方。”

不知在技术上并不复杂的问题,未来是否会越来越少。