相关分析表明相关分析不靠谱

大家好,媛子又来聊天儿了。如果大家对媛子的上一篇文章“数据表明:数据不靠谱”还依稀有一点儿印象的话,应该就会记得我们一直在强调的,虽然“数据表明”听起来非常高大上,但如果你的数据本身都不靠谱,那得到的结论可能就会有致命性的误导作用了。

那么现在呢,假设数据的来源没有什么大问题,那我们分析完之后是不是就可以昂首挺胸地把结论交出来造福吃瓜群众啦?比如大家在电视上随处可见的广告或者新闻标题的句式:“想要A吗?那就来用B吧!”或者“研究表明,C物质会降低得D疾病的风险”,又或者“E为你摆脱F的烦恼!”特别熟悉吧?如果这时候你又看到了一堆图图表表,很高端的样子,是不是直接就被洗脑了?

好的,那现在媛子跳出来泼你冷水了。在泼之前呢,大家先来看看啊,以上这些结论都有什么共同点。发现了没?它们都是以这样那样的形式阐述了一种因果关系,说白了,就是你可以把它们都翻译成“因为A,所以B”的句式。而媛子想说的是,并不是只要能扯上关系的两种东西就会有“你是风儿我是沙,缠缠绵绵走天涯”的因果联系,况且沙能走天涯不见得完全是因为风啊,它自己也会滚来滚去的,或者粘在骆驼背上也能走啊。

所以说呢,如果没有做过谨慎全面的实验设计和统计分析就草率地下这种因果关系的结论啊,很可能造成坑爹坑妈坑群众的恶劣后果。媛子告诉你,有时候,童话里都是骗人的,市面上的关于这种因果关系的论断呢,很多时候其实只是表象上的相关分析而已。那我们今天就来聊聊那些年我们被忽悠的相关分析。

例一:想长寿吗?来吸烟吧!(……)

第一个例子,媛子给它取名字叫做“想长寿吗?来吸烟吧!”不好意思啊,媛子标题党了。不知道会不会被和谐。但是呢,这是的确是一个基于合理数据的严肃研究……英国某健康研究机构呢,从全民中随机抽取出了名志愿者,其中名吸烟者,名不吸烟者。20年后,跟踪调查显示,吸烟者的死亡率是24%,而不吸烟者的死亡率为31%。并给出了这样一份在统计报告中针对这种分类数据经常见到的二维列联表:

怎么样,有表有真相吧。吸烟者的死亡率比不吸烟者还要低。这个时候啊,媛子瞬间脑补出来一个妥妥的上热搜的标题:“为香烟正名:吸烟使人长寿。”那当我们看到这种“吓死本宝宝”的言论时,应该怎样保持头脑清醒,并且试图揭穿它的真面目呢?

希望看到这儿你的脑袋里面能跳出来媛子的上一篇文章,让我们先去看看数据是不是靠谱的。好的,那我告诉你,这名就是随机抽取出来的,能够代表全民。所以呢,问题不出在数据。那就是分析的问题了。一定是我们漏掉了什么重要的东西。

那我们再来回头看看我们还能从数据中分析出来点儿什么。当时的数据你的,除了“是否吸烟”之外,还记录了志愿者的年龄啊、职业啊、家庭结构啊,健康现状和其他的一些生活习惯作为参考。怎么样?有什么想法吗?可能有朋友已经想到了,没错,年龄。在这随机抽取的个人里面,我们统计了一下,吸烟者中65岁以上的老年人只占8.4%,而不吸烟者中的老年人却占到了26.4%。这种年龄不均衡性啊就可以解释上述的现象了:不吸烟组他们的死亡率高是没错,但可不是因为人家不吸烟啊,而是因为本来这组老年人的比例就高,那20年以后自然死亡或者是患某种致命的疾病的几率本来就大啊!

那么发现了这个现象之后我们应该怎么办呢?有统计经验的朋友可能已经知道了,分组。那我们就再按年龄分组来做一次列联表,看看每一个年龄组的死亡率在吸烟者和不吸烟者中有什么差别。

你看啊,在34岁以下的青年人中,吸不吸烟影响真的不大,因为20年后的死亡率都很低,而在65岁以上的老年人中,其实吸不吸烟影响真的也不大,因为过了20年之后,他们都85岁以上了,死亡率本来就很高。但对于35岁到64岁之间的人群,不吸烟组比吸烟组的死亡率低了那可不是一点两点。如果看表格会把你搞晕的话,你可以来看一下下面的分组柱状图应该就一目了然了。(希望这个柱状图不会入选水妈的丑图百讲。。。)

看到这儿呢,你可以长吁一口气了,我的三观终于没有被毁。总结一下,我们之前的统计分析其实并没有做错,如果只是看否吸烟和死亡率,它们真的会出现这种“越吸烟越长寿”的奇怪的现象。但这只是表象上的关联性,或者说相关性,我们不能盲目地把它升华为因果关系。“吸烟组的死亡率比较低”这种说法指的是相关性,只是我们观察到的一种表象,它并不等价于“因为吸烟,所以死亡率低”或者“吸烟会导致死亡率降低”这种带有逻辑性推理的因果关系。他们中间的界限呢,往往就这样被默默地被模糊掉了。

这个例子的主要问题啊,是因为我们之前忽略了一个可能很重要的变量“年龄”,这种会对结果产生重大影响但是却没有被考虑在列的变量,我们把它叫做“潜在变量”(lurkingvariable)。它有时候真可谓是“杀人于无形之中”,稍不注意就可能会要了整个统计分析报告的命。这种结果直接被潜在变量给反转的现象,我们在统计学里面称之为辛普森悖论(Simpson’sParadox)。

对于这种“吸烟就会长寿”的颠覆世界观的结论啊,作为吃瓜群众的我们大多都还都是有能力判别能力的,至少应该会持怀疑态度,而如果你今天面对的是看似高端合理却又号称是某领域得新发现的一种言论的时候,也许很多人就会被这种报道牵着鼻子走了。而这类的情况呢,其实已经渗透到我们日常接触的各种信息当中。比如说下面媛子再给大家来展示另外一个关于犯罪率和教育水平的例子。

例2:犯罪率和教育

如果说今天报纸的头条是这样写的:“美国高等教育现状令人堪忧:高学历更易引发犯罪”,你会有什么反应?是不是迫切地想知道为什么会造成这样的社会现象:是读书读多了压力过大容易变态吗?还是高学历社会认同感不够导致了容易仇视社会?还是美国高等教育真的有问题?然后又联想到几例最近听到的美国高校枪杀案呢,还有各种高科技犯罪的新闻,马上把这篇报道转到票圈,呼吁亲朋好友不要再到美国去留学了。拿希望看完媛子的文章啊,你以后在思考这些问题之前,先对这种言论本身持一种怀疑态度,关心一下这个研究究竟是怎么做的?数据是哪儿来的?而分析又是怎么进行的?

这个例子的数据呢也没有什么问题,是从美国各地区人群普查得到的,包含当地犯罪率以及用来代表教育水平的高中以上学历的居民比例。由于这两个变量呢都是连续变化的,之前那种针对分类数据的列联表就不能用了,这里我们用的是如下这种在统计中每天你抬头不见低头见的所谓的散点图(scatterplot)。

从这个散点图中阿,我们确实能看到,随着教育水平的增高,犯罪率真的有些许上升的趋势。而且二者之间的皮尔森相关系数(Pearsoncorrelation)是0.47,正相关关系。到这儿我们的统计分析是不是就结束了呢?把这个结果交由心理学家或者社会学家或者教育家去研究,这是为什么呢?这是为什么呢?其实啊,我们能做的统计分析远不止这么多。根据上一个吸烟使人长寿的例子,我们思考一下啊,这种表象上的相关性会不会跟某个潜在变量有关呢?

人口普查其实还会得到很多其他的数据,根据我们的常识我们可以初步确定几个候选的潜在变量。在这里我们就来讨论一个最有可能的潜在变量:城市化程度。也就是说,每个地区在大城市生活的居民比例。如果我们把所有数据根据城市化程度划分成三组,我们就会得到如下的分组散点图。

看到了吧,在类似的城市化程度上呢,其实教育水平是跟犯罪率是负相关的哎!而随着城市化程度越来越高,其实犯罪率和教育水平都会升高。这一点呢其实是跟我们的常识相符的。美国的大城市犯罪率就是要高一些,而大城市的居民通常更有可能接受到高中以上的教育。所以之前我们看到的教育水平和犯罪率的正相关性其实并没有太大的参考价值。之前那个不明觉厉的标题也就不攻自破了。

以上两个例子呢都属于辛普森悖论的范畴。这种情况下呢,有些看似的新发现啊、新言论啊其实只是因为少考虑了一些潜在变量。所以在我们大呼小叫散布这些新大陆之前,先洗把脸清醒一下,看看有没有什么猫腻儿在里面。

而更多的时候呢,其实没有辛普森悖论这么夸张,但也会因为这样那样的疏忽造成这种自带因果关系体质的言论的不可信。这里媛子为大家总结了几种这类问题的常见的现象。当然啊,这是媛子一拍脑袋总结出来的,欢迎大家的批评指正或者补充。

1

第一种,本来是负相关的,因为被潜在变量影响而变成了正相关。这就是上述所说的辛普森悖论。

2

第二种,本来不相关的,是完全由于潜在变量导致的相关性。

在这儿媛子给大家举个例子。澳大利亚黄金海岸因为有很多美丽的沙滩而世界闻名。但不幸的是呢,每年都会有人在那里溺水身亡。现在如果你脑洞大开,做一下黄金海岸溺水身亡的人数和当地冰激凌销售业绩的分析,媛子可以负责任地告诉你,它们会有很强的正相关性。

然并卵。你能说是因为冰激凌的销售量变大导致溺水人数变多吗?或者说我如果想让溺水的人少一些,是不是号召大家少买点冰激凌就好了呢?正常人都知道这是种脑子进水了的想法,也都能想到这种正相关性啊是因为温度或者说天气,天儿热冰激凌更受欢迎,同时更多人会去游泳而导致溺水的人可能变多。这本身是一个非常明显的例子所以大家不觉得自己会拎不清,但如果一个健康广告说“最新研究结果显示,优质胆固醇会降低心血管疾病的发病风险”,然后顺带推销几种优质胆固醇的保养品,你会不会头脑一热就去给你的长辈买了?

3

第三种,表象上的相关性有的时候呢,是由于时间趋势造成的。

这种情况啊,媛子在很多本科毕业答辩的时候见到过,就是这种原因造成的盲目的因果关系的推断。比如说我们收集了近20年来中国的离婚率和犯罪率的数据,发现呢,离婚率越高犯罪率越高。那么真的是可以直接推出离婚的人更容易有犯罪倾向吗?当然不行。因为这种现象啊,主要是由于二者都是时间序列(timeseries)这种数据,那离婚率和犯罪率都会随着时间推移而逐渐上升,也就是说离婚率越高,说明数据的时间节点越晚,而对应的犯罪率就会越高。

又比如啊,如果你做一下房价和手机使用率的相关关系,那在过去的这二十几年里面,它们肯定也是正相关。那大家为了能买得起房子是不是少用点儿手机就可以了呢?这都是显而易见的对吧?

4

第四种,即使普遍认为是有相关关系,但是没法证明内在机制,或者不确定谁是因谁是果。

上面的吸烟使人长寿的例子大家都知道是在忽悠,那么“吸烟可能导致肺癌”却是一个被普遍认可的观点。但是其实呢,从20世纪初直到现在,这种因果关系都受到科学界的各种质疑或者说怀疑。比如说也许肺癌与吸烟习惯的背后有一种共同的遗传因素只是人们还没有找到?现代统计学之父R.A.Fisher大家都认识吧?至少可能学统计的同学会认识他。他当时甚至认为,不排除“由肺癌导致吸烟”的这样一种可能性——也许在即将患上肺癌时,人们开始感觉不舒服或者感到烦躁,这时候比平常更容易吸上一支香烟来应对。这种论调呢,现在看来可能有点荒唐,但是的确给我们打开了一扇不走寻常路的这种逻辑门,避免我们落入定式思维的圈套。

看到这儿呢,有的朋友可能早就想跟媛子急了:你说了这么多,结论就是所有提及因果关系的都别信,那我们还忙活啥?那还能不能愉快地玩耍了?!别急啊,媛子承认,论证因果关系是件挺难的事儿,我这里说的是单纯从表面的相关关系是不能直接推出因果关系的,而这是我们日常生活或者科学研究领域经常会犯的错误。但是虽然难,我们还是有很多方法可以去验证因果关系的存在,比如说我们可以进行实验性研究(experimentalstudy),或者针对观察性研究(observationalstudy)的时候呢,采用倾向得分匹配(propensityscorematching)之类之类的这些统计技巧。这些具体的媛子在这儿就先不讲了,以后有机会的话再跟大家分享。

还有的朋友说,大数据时代,我们最在乎预测未来,比如说预测股票走势、预测地震台风、预测城市发展前景等等等等。这样的话,其实可以不去理会那么复杂的因果关系,只要知道相关关系就足够了。没错,“预测”(prediction)是数据分析的主要目的之一。你如果知道下一个月的冰淇淋销售量,确实可以差不多预测出溺水死亡的人数。或者反过来,你知道某个时期溺水死亡的人比较多,也可以估计出这个时期应该冰淇淋销售业绩也不会太差。在预测的层面上,你并不用管是不是冰激凌的销售情况直接导致溺水死亡人数的变化。

但更多的时候呢,我们是需要知道事物之间的内在机制的,特别是在科学研究领域。比如在提出类似“优质胆固醇会降低心血管疾病的发病风险”这种言论的时候啊,只研究优质胆固醇和心血管疾病的相关关系显然是不够的。你必须保证增加此胆固醇的摄入真的会直接导致心血管疾病发病风险降低,而不是其他的什么假象。

说了这么多呢,媛子其实就是想告诉大家,有的时候呢,数据分析和最终面向大众的言论中间其实是有一道被遗忘了的鸿沟的,这道鸿沟的一边是“表面上的相关关系”,另一边是“机理上的因果关系”,而我们经常把这道鸿沟不自觉地就模糊掉了。有的时候这种因果关系并不重要,比如你只关心预测,那你就把言结论止于相关关系就万事大吉了,千万别多说多错。还有的时候,因果关系它本身是重要的,那就需要我们用更加仔细更加严谨的统计思维和方法去进一步探讨因果关系的存在性。如果从相关关系这个时候你直接一个大跨步,即使你有两米的大长腿,也逃不了掉到沟里的命运。

好了,那媛子这次就先唠叨到这儿了,非常感谢大家能坚持看到或者听到最后,咱们下次见!

参考文献:

Statistics:TheArtandScienceofLearningFromData,AlanAgrestiandChristineA.Franklin

HownottobeWrong,JordanEllenberg









































北京中科白癜风医院
白癜风治疗最好的药



转载请注明地址:http://www.webgametool.com/jbby/0.html
  • 上一篇文章: 没有了
  • 下一篇文章:
  • 热点文章

    • 没有热点文章

    推荐文章

    • 没有推荐文章