互联网技术 / 互联网资讯 · 2023年12月21日

效应和定律在数据分析中的应用

马太效应

马太效应源自《新约·马太福音》的寓言,它指出:拥有的将得到更多,而没有的则连现有的也会失去。在中国,类似的古语也存在,出现在《道德经》中:“天之道,损有余而补不足;人之道则不然,损不足以奉有余。”这两句古语形象地阐释了马太效应,简单来说,就是强者愈强,弱者愈弱。

在商业应用中,马太效应非常普遍。例如,在推荐算法中,评价较高的用户往往能够获得更多资源,这种反馈机制使得这些用户的质量评判不断提升,从而进一步加剧了这种效应。

虹吸效应

许多学生小时候可能尝试过用软管虹吸水的实验。将软管的一端放入水槽,另一端放在水槽下方时,水会不断流出。这一现象反映了虹吸效应:液体会因压力差而流动。在商业中,虹吸效应描述的是某一主体吸引资源,从而使自身相对其他主体更具吸引力,导致后者的资源匮乏。

尽管虹吸效应与马太效应有所相似,但并不完全相同。简单来说,马太效应强调的是强者的优势不断扩大,而虹吸效应则更像是强者将周边资源吸走,导致周围主体资源枯竭。

例如,在劳动力市场中,985和211高校的毕业生数量有限,大公司通过高薪吸引人才,导致这些毕业生大多流向大公司,小公司则难以招募到合适的人才,这就是虹吸现象。此外,在渠道投放中,如果某厂商的渠道预算提高,其ECPM值上升,投放人员可能会将其他渠道的预算转移到该渠道,最终导致小渠道的预算逐渐减少,甚至停投。

幸存者偏差

幸存者偏差关注的是存活下来的群体特征,却忽略了未存活群体可能具备的相似特征。这里的“幸存”更准确地说应为“筛选”。

在二战期间,统计学家沃德教授受邀为美国军方提供建议,以降低飞机被击落的风险。观察发现,机翼是被击中的主要部位,而机尾的遭遇相对较少。虽然军方认为应加强机翼的防御,但沃德教授的结论是应加固机尾,因为样本只包括了返航的飞机,机翼即便多次遭到攻击仍能返回,说明其并非致命部分,而机尾受损则会导致飞机无法返航。

辛普森悖论

辛普森悖论表明,当比较两个群体的数据显示时,A组在各个维度的表现都优于B组,但整体上A组的表现却不一定优于B组。

举个例子,假设我们比较两个竞品A和B的用户留存率,并将留存数据拆分为新用户和老用户。虽然A的各类用户留存率均高于B,但整体留存率却可能低于B。这种情况可能源于两个因素:第一,两个竞品新老用户的占比不同;第二,A的老用户留存率高于B的新用户留存率。如果A的老用户占比高于B,那么B在老用户留存上的优势可能会弥补其新用户留存的劣势,从而整体留存率超过A。

本福特定律

本福特定律指出,在许多实际数据集中,以1为首位数字的概率约为30.1%。这一规律尚未得到严格证明,但它可以作为一种监测指标。当数据未能符合本福特定律时,可能存在数据造假的嫌疑,因此该定律常被用于检测上市公司财报的真实性及选举过程中的舞弊行为。

帕累托定律

虽然“帕累托定律”这个名字可能不为人所熟知,但“二八定律”却是大家耳熟能详的概念。管理学家帕累托通过研究发现,社会上20%的人占据了80%的财富。随着研究的深入,这一定律被进一步表述为,在任何一组事物中,最重要的部分仅占小部分,约为20%;其余的80%虽然数量较多,但却是次要的。例如,在活跃用户中,只有20%的用户是付费的,而在这些付费用户中,20%的用户贡献了80%的收入。这一统计显示了因果关系、努力与收获之间普遍存在的不平衡性及其可预测性。