互联网资讯 / 人工智能 · 2023年11月15日 0

识别数据欺诈的方法

数据分析师、机器学习与人工智能工程师、统计学家等头衔听起来都颇为令人钦佩,但要小心,这其中也可能隐藏着数据欺诈者。在高薪的诱惑下,这些诈骗者破坏了正直数据专业人士的声誉。

识别数据欺诈的方法

数据欺诈者擅长于在众人面前隐藏自己的身份,你可能根本没有意识到他们的存在。他们可能就潜藏在你的公司内部,幸运的是,如果你了解一些关键线索,识别他们并不困难。首先,他们往往无法分辨分析学与统计学是截然不同的两个学科。

统计学家的训练侧重于从数据推断出超出数据本身的内容,而分析师则专注于从数据集内得出结论。换句话说,分析师通过数据中的信息得出结论,而统计学家则基于那些未在数据中显示的信息进行推理。分析师帮助提出合适的问题,而统计学家则致力于找到理想的答案。

当然,也有一些兼具这两种身份的“混血”人才,但他们不会同时扮演这两个角色。原因在于,数据科学的核心原则是,处理不确定性时不能用相同的数据点进行假设生成与假设测试。当数据有限时,你必须在统计学和分析学之间做出选择。

没有统计学的支持,无法评估自己提出的观点是否合理;缺乏分析学的指导,则可能在探索过程中迷失方向,无法识别未知的未知。

这是一个艰难的决策!是要睁开眼睛接受分析学带来的灵感,放弃对观点可靠性的追求,还是在不确定的情况下冒险提出问题,期望能得到严谨的答案?

骗子之所以能逃避这种困境,往往是选择性忽视,声称对某些数据的惊人发现感到意外。统计假设测试的逻辑在于:我们的数据是否足以让我们改变想法。如果我们已经见过这些数据,又怎么会感到惊讶呢?

那么,在你眼中,图片中的云彩和薯片更像兔子还是猫王?或者像某位总统?

欺诈者往往会发现某种模式并加以利用,反复测试同样的数据,仅用一两个合理的p值来支持他们的理论。然而,这种做法实际上是在误导你,甚至也在欺骗他们自己。这样的p值毫无意义,除非在查看数据之前就对假设作出承诺。

这些骗子模仿分析师和统计学家的行为,却并不理解其内在逻辑,从而给数据科学领域带来了不良影响。

真正的统计学家在做出结论时总是保持谨慎。由于他们在严谨推理方面享有极高的声誉,数据科学领域的“万金油”现象频繁出现。这种欺诈手段不易被人察觉,尤其是在那些毫无防备的受害者面前。

骗子的身份特征很明显,只需一个线索便可揭穿他们:骗子往往只能追溯过去的现象,而统计学家则提供前瞻性的检验。

不同于骗子,优秀的分析师是思想开放的典范,他们会结合鼓舞人心的见解与多种可能的解释,而优秀的统计学家则在做出决策时异常谨慎。

分析师的角色不需要承担一切责任,他们只需通过数据得出结论。如果他们想对未知事物发表看法,那么此时他们应转变角色,变成统计学家。毕竟,无论职位如何,没有规定说你不能同时涉足两个领域,只要不混淆角色即可。

擅长统计并不意味着也擅长分析,反之亦然。如果有人告诉你这两者是一样的,务必深思。如果有人声称可以对你研究的数据进行统计推断,请再次审视他的话。他很可能是个骗子。

在现实生活中观察数据骗子时,你会发现他们喜欢编织华丽的故事来“解释”观察到的数据:这些故事往往听起来越学术越好,完全无视数据的实际情况。

骗子的做法毫无道理。再多的公式与空洞的言辞也无法掩盖他们缺乏证据的事实,他们并不知道超出数据范围的内容。不要被他们的花言巧语所迷惑。若是统计推断,他们就必须在看到数据之前谨慎做出决定。

这种情况就好比他们在炫耀自己的“超能力”,先看一眼你的牌,然后预测你手中持有的是什么牌。不论你手中是什么牌,他们都能如数家珍。准备好听听他们如何解释你面部表情泄露了你手中的牌。这便是后见之明偏误,在数据科学中屡见不鲜。

为了防止骗子进入你的生活,当待处理的数据量不大时,你必须在统计学和分析学之间做出选择。然而,如果你拥有大量数据,那么你就有机会充分利用分析与统计,而不易上当。还有一种有效的策略是“数据拆分”,这是数据科学中最强大的思想之一。

通过确保某些测试数据不在他们的视野中,其他数据则视为分析学(不必太较真)。在面对一种你可能全盘接受的理论时,可以利用它来替代,随后查看你的秘密测试数据,验证这个理论是否可靠。

从人们习惯的时代转变到“小数据”时代,必须解释你是如何获得这些知识的,以一种轻松的方式说服他人,证明你确实了解一些事情。

那些伪装成机器学习或人工智能专家的骗子往往容易被识别。你可以通过识别那些蹩脚工程师的方法来揭穿他们:他们构建的“解决方案”往往无法交付。早期警告信号是他们缺乏行业标准编程语言和库的经验。

但对于那些构建出看似正常运行系统的人,你又该如何判断呢?同样的逻辑适用!骗子狡猾地向你展示他们模型的优越性,使用的却是他们在构建模型时使用的数据。如果你建立了一个极其复杂的机器学习系统,如何能确保它能够正常运作呢?你无法知道,除非你证明它能够处理以往未见过的新数据。

当有足够数据可供拆分时,无需改动原有公式即可验证项目的合理性,这种做法在各领域均可见。

借用经济学家保罗·萨缪尔森的一句俏皮话:骗子成功预测了最近五次经济衰退中的九次。

我对数据骗子没有耐心。了解一些看似像猫王的薯片又有什么意义?没人关心你的观点是否符合原有的“薯片”定义。无论解释多么华丽,我都不会被说服。真正的考验在于理论或模型能否适用于一系列未曾见过的新“薯片”。

数据科学专业人士,如果你希望获得那些真正理解幽默的人的重视,请不要再用复杂的公式来支持个人偏见。让我们看看你的真本事。如果你希望让那些“了解”你理论的人将其视为鼓舞人心的诗歌,就请大胆在他们面前用全新的数据集进行一次精彩的展示!

领导者不会认真对待任何与数据相关的“见解”,除非这些见解通过了新数据的考验。若不想付出努力,就坚持使用分析学,但不要依赖于这些见解,它们经不起推敲,可信度尚未得到验证。

此外,当公司拥有大量数据时,分割数据应成为科学文化的核心部分,甚至通过控制对专门用于统计的测试数据的访问,将其应用于基础架构,这样做将极大有利于防范欺诈行为。这是扼杀“万金油”现象的有效方法!

要培养数据分割的习惯,务必对原始数据的不同子集分别进行分析与统计。这样,你就能在不受欺骗的情况下获得双重优势!