做数据分析时,如果提前知道一些常见的误区,能提高我们不少工作效率。本文分享的因果陷阱这种概念,能帮大家避免此类误区。
做互联网应用运营同学经常会遇到这样的问题,当增加广告或者发放更多的优惠券时,最终订单支付率也会增加,两者之间的相关性很高
例如:
(a)在广告投入每增加10%,支付失败率从10%增加到15%。
(b)在广告投入没有增加的时候,支付失败率维持在10%。
因此就推断可能是增加广告投入导致了支付失败率的增加。
尽管数据显示了广告投入和支付失败率之间的高度相关性,但这并不能确定广告投入就是支付失败率增加的原因。实际上,增加广告投入可能吸引了更多的新用户来到网站,而这些新用户对网站的产品和购物流程不熟悉,导致支付失败率的增加。其实”关联并不意味着因果关系”。我们不能仅仅因为两个变量之间有关联,而直接断定它们之间存在着因果关系。这就是常说的“因果陷阱”。
类似:在一份关于气候变化的研究数据中,科学家发现,过去十年来海盗数量的减少与全球气温的升高呈现高度关联性。那么,我们能否因此得出结论:减少海盗数量会导致全球气温升高?显然,这种因果关系是荒谬的,注意,这就是不正确理解数据的结果,也是因果陷阱的一个典型例子。
让我们再来看一个更生活化的例子。一个常见的说法是“撒娇的女人更好命”。假设我们有一份研究结果显示,撒娇的女人通常比不喜欢撒娇的女人更好命,这里的“好命”可能被定义为更幸福的生活或者更高的生活满意度。然而,这并不能说明撒娇就是导致“好命”的因素。
首先,可能存在第三个变量,比如财富状况或自信心,这些变量可能既影响女人是否撒娇,又影响其“好命”的程度。例如,一个更自信或者更富有的女人可能更可能毫无顾忌地撒娇,同时也很可能由于这个原因,拥有比较满意的生活。
其次,这种关联可能是反向即反事实的。也就是说,因为女人具有更好的生活,她们才有幸福感、自信心去撒娇。换句话说,“好命”引发了撒娇,而非撒娇导致了“好命”。
只看到“撒娇的女人更好命”的表面现象,而不深入分析其背后可能存在的机制,便很容易陷入因果陷阱。我们可以通过更深入、全面的研究,并计算各种影响因素的控制变量,来更准确地理解这个现象。
在数据分析过程中,我们需要注意的是:关联性是可以量化的,但是因果性则需要通过科学的实验设计和深入的思考来确定。统计学中,Pearson相关系数是一种衡量两个变量线性相关程度的量,其取值范围在-1到1之间,值越大关联性越强,但是这并不是说它们之间就存在因果关系。
比如,我们经常看到夏天冰淇淋的销售量与溺水事件的增多有很高的相关性,但是我们并不能说冰淇淋的销售增加导致了溺水事件的增多,这是因为他们的增加都是由炎热的天气因素引起的。
数据分析不仅仅是看数字,理解数据。更重要的是要精确地理解和分辨关联性和因果性,避免陷入因果陷阱。豁然开朗的数据洞察,并不是拿到数据就能获得的,需要我们深度思考和尖锐洞察。在这个数据泛滥的时代,正确理解数据,避免因果陷阱的误导,就是我们每一个数据分析师的使命和责任。
本文由 @佑佑和博博~ 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自Unsplash,基于 CC0 协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。