互联网资讯

识别数据欺诈的方法

2023年11月15日 · admin

数据分析师、机器学习与人工智能工程师、统计学家等头衔听起来都颇为令人钦佩，但要小心，这其中也可能隐藏着数据欺诈者。在高薪的诱惑下，这些诈骗者破坏了正直数据专业人士的声誉。

数据骗子无处不在，教你拆穿所谓“万金油”

数据欺诈者擅长于在众人面前隐藏自己的身份，你可能根本没有意识到他们的存在。他们可能就潜藏在你的公司内部，幸运的是，如果你了解一些关键线索，识别他们并不困难。首先，他们往往无法分辨分析学与统计学是截然不同的两个学科。

统计学家的训练侧重于从数据推断出超出数据本身的内容，而分析师则专注于从数据集内得出结论。换句话说，分析师通过数据中的信息得出结论，而统计学家则基于那些未在数据中显示的信息进行推理。分析师帮助提出合适的问题，而统计学家则致力于找到理想的答案。

当然，也有一些兼具这两种身份的“混血”人才，但他们不会同时扮演这两个角色。原因在于，数据科学的核心原则是，处理不确定性时不能用相同的数据点进行假设生成与假设测试。当数据有限时，你必须在统计学和分析学之间做出选择。

没有统计学的支持，无法评估自己提出的观点是否合理；缺乏分析学的指导，则可能在探索过程中迷失方向，无法识别未知的未知。

这是一个艰难的决策！是要睁开眼睛接受分析学带来的灵感，放弃对观点可靠性的追求，还是在不确定的情况下冒险提出问题，期望能得到严谨的答案？

骗子之所以能逃避这种困境，往往是选择性忽视，声称对某些数据的惊人发现感到意外。统计假设测试的逻辑在于：我们的数据是否足以让我们改变想法。如果我们已经见过这些数据，又怎么会感到惊讶呢？

那么，在你眼中，图片中的云彩和薯片更像兔子还是猫王？或者像某位总统？

欺诈者往往会发现某种模式并加以利用，反复测试同样的数据，仅用一两个合理的p值来支持他们的理论。然而，这种做法实际上是在误导你，甚至也在欺骗他们自己。这样的p值毫无意义，除非在查看数据之前就对假设作出承诺。

这些骗子模仿分析师和统计学家的行为，却并不理解其内在逻辑，从而给数据科学领域带来了不良影响。

真正的统计学家在做出结论时总是保持谨慎。由于他们在严谨推理方面享有极高的声誉，数据科学领域的“万金油”现象频繁出现。这种欺诈手段不易被人察觉，尤其是在那些毫无防备的受害者面前。

骗子的身份特征很明显，只需一个线索便可揭穿他们：骗子往往只能追溯过去的现象，而统计学家则提供前瞻性的检验。

不同于骗子，优秀的分析师是思想开放的典范，他们会结合鼓舞人心的见解与多种可能的解释，而优秀的统计学家则在做出决策时异常谨慎。

分析师的角色不需要承担一切责任，他们只需通过数据得出结论。如果他们想对未知事物发表看法，那么此时他们应转变角色，变成统计学家。毕竟，无论职位如何，没有规定说你不能同时涉足两个领域，只要不混淆角色即可。

擅长统计并不意味着也擅长分析，反之亦然。如果有人告诉你这两者是一样的，务必深思。如果有人声称可以对你研究的数据进行统计推断，请再次审视他的话。他很可能是个骗子。

在现实生活中观察数据骗子时，你会发现他们喜欢编织华丽的故事来“解释”观察到的数据：这些故事往往听起来越学术越好，完全无视数据的实际情况。

骗子的做法毫无道理。再多的公式与空洞的言辞也无法掩盖他们缺乏证据的事实，他们并不知道超出数据范围的内容。不要被他们的花言巧语所迷惑。若是统计推断，他们就必须在看到数据之前谨慎做出决定。

这种情况就好比他们在炫耀自己的“超能力”，先看一眼你的牌，然后预测你手中持有的是什么牌。不论你手中是什么牌，他们都能如数家珍。准备好听听他们如何解释你面部表情泄露了你手中的牌。这便是后见之明偏误，在数据科学中屡见不鲜。

为了防止骗子进入你的生活，当待处理的数据量不大时，你必须在统计学和分析学之间做出选择。然而，如果你拥有大量数据，那么你就有机会充分利用分析与统计，而不易上当。还有一种有效的策略是“数据拆分”，这是数据科学中最强大的思想之一。

通过确保某些测试数据不在他们的视野中，其他数据则视为分析学（不必太较真）。在面对一种你可能全盘接受的理论时，可以利用它来替代，随后查看你的秘密测试数据，验证这个理论是否可靠。

从人们习惯的时代转变到“小数据”时代，必须解释你是如何获得这些知识的，以一种轻松的方式说服他人，证明你确实了解一些事情。

那些伪装成机器学习或人工智能专家的骗子往往容易被识别。你可以通过识别那些蹩脚工程师的方法来揭穿他们：他们构建的“解决方案”往往无法交付。早期警告信号是他们缺乏行业标准编程语言和库的经验。

但对于那些构建出看似正常运行系统的人，你又该如何判断呢？同样的逻辑适用！骗子狡猾地向你展示他们模型的优越性，使用的却是他们在构建模型时使用的数据。如果你建立了一个极其复杂的机器学习系统，如何能确保它能够正常运作呢？你无法知道，除非你证明它能够处理以往未见过的新数据。

当有足够数据可供拆分时，无需改动原有公式即可验证项目的合理性，这种做法在各领域均可见。

借用经济学家保罗·萨缪尔森的一句俏皮话：骗子成功预测了最近五次经济衰退中的九次。

我对数据骗子没有耐心。了解一些看似像猫王的薯片又有什么意义？没人关心你的观点是否符合原有的“薯片”定义。无论解释多么华丽，我都不会被说服。真正的考验在于理论或模型能否适用于一系列未曾见过的新“薯片”。

数据科学专业人士，如果你希望获得那些真正理解幽默的人的重视，请不要再用复杂的公式来支持个人偏见。让我们看看你的真本事。如果你希望让那些“了解”你理论的人将其视为鼓舞人心的诗歌，就请大胆在他们面前用全新的数据集进行一次精彩的展示！

领导者不会认真对待任何与数据相关的“见解”，除非这些见解通过了新数据的考验。若不想付出努力，就坚持使用分析学，但不要依赖于这些见解，它们经不起推敲，可信度尚未得到验证。

此外，当公司拥有大量数据时，分割数据应成为科学文化的核心部分，甚至通过控制对专门用于统计的测试数据的访问，将其应用于基础架构，这样做将极大有利于防范欺诈行为。这是扼杀“万金油”现象的有效方法！

要培养数据分割的习惯，务必对原始数据的不同子集分别进行分析与统计。这样，你就能在不受欺骗的情况下获得双重优势！