【IT时代周刊编者按】大数据越来越火的同时,不靠谱指数也在上升。马继华就这个问题举了毒大米与死麻雀的例子,就是提醒这些潜心分析大数据的人们,不要忽视了没有能力拿到或者没准备却拿到的部分,更不要在过分关注相关性同时,跳过因果论证的步骤。往往,先入为主的自以为是会导致整个数据分析的无用性。 据说,20只麻雀吃了散落的大米,死了。 先,有人说,麻雀是吃了有毒大米,中毒死的。 后来,有人说:专家认为麻雀可能是吃多了,撑死的。 再后来,有人又辟谣说:没有人说过,麻雀是撑死的。 再再后来,有人又辟谣说,大米没有毒。 再再再后来,有人又辟谣说,大米还没有卖出去,卖出去的都追回来了。 再再再再后来,有人又辟谣说,还有一部分大米没追回来,但大米确实没检测出有毒。 我们不再说后来了,因为这个故事还没有完。而且,即便被人为的确定终结,好事者也不会就此认为事情完了。 这次的毒大米与死麻雀的事件,看似传言绕来绕去,实际上却是一次典型的大数据分析的实践,从中可以看出,盲目的所谓大数据分析是多么的容易误导公众。 1.我们找到了所有的麻雀了吗? 我们不知道谁在现场数数了,可以肯定当时贪吃了大米的就是20只,如果是很多很多只,那些麻雀去哪里了,为何这些麻雀没有死? 我们做大数据分析,往往号称拿到了所有的数据,但实际上仅仅是能够拿到的那部分而已,也许恰恰是那些我们没有能力拿到或者没准备却拿到的部分,将大大影响我们最终的分析结论。当年,美国总统大选,那么有名的《文学文摘》拿到了240万的读者投票意向,最终却预测失败,相反,盖洛普凭借5000个很小的样本就预测成功,也是这个道理。 2.这20只麻雀就是那吃了大米的麻雀吗? 麻雀是否吃了大米,应该比较好检验,但是否正好是吃了这一堆大米,却有点难度。当然,如果是时间比较短,检验起来也应该可以确认。总之,我们要确认大米与麻雀之间的相关性。 大数据分析首先要确认事物之间的相关性,而且要密切相关,一对一的直接相关,如果我们仅仅是把毫不相关的或者可能有一点关联的事物放到一起分析,最终的结论可能很无聊。比如,有人连续看到中央电视台的《新闻联播》结束的时候太阳就落山了,由此得出结论,太阳落山与新闻联播结束相关。 3.麻雀之死是因为吃了大米导致的吗? 麻雀死了,这是事实;麻雀死之前吃了大米,也是事实。那我们是否可以就说,麻雀之死与大米有关联呢?也不能下结论。我们需要在麻雀的死亡与吃大米之间构建确切的因果关系,也就是说,我们需要找到麻雀之死的死因,而且这个死因是大米之毒。 大数据分析非常关注相关性,甚至对因果关系不予理睬,但这种相关性却往往需要因果关系的支撑。只要是关联密切的直接相关,一定会找到某种因果关系,或者排除某种因果关系。我们做大数据分析,不能仅仅就凭借简单的相关来下结论,必须通过严谨的因果论证,才能被严肃的使用。 4.麻雀之死是因为吃了毒大米导致的吗? 严格来说,麻雀确实有可能是吃大米太多而“撑死”的,我们并不能完全排除这种可能性,所以,专家的话实际上说的在理。即便认定麻雀之死是毒大米造成,还要分析这毒是如何来的,是大米生产过程中还是有人投毒?当然,这就是公安部门的职责了。 我们只有发现了大米有毒,且大米之毒足以致死麻雀,而麻雀也确实是吃进了这些大米,这样才可以下结论“大米毒死了麻雀”,可事实上舆论早已经抛开了这些逻辑,自顾自的开始从中国的食品安全惯性来考虑。 大数据分析中可能发现很多关联,这些看似可贵的发现却多数都可能是无用的,而且,有些可能是毫无意义的。我们需要对其进行深入的分析,特别是要建立起一系列的可证逻辑,由此才可能发现对于我们非常重要的线索,但是,我们却往往不愿意采用“MECE”方法,不想把所有的可能性都考虑到,更愿意先入为主的自以为是,而这往往期间是误判的主要来源。 【IT时代周刊编后】最近有一个很有意思的论调,大意是根据数据测算,东道主巴西问鼎世界杯的胜算较大。据说,算出这个结果的是一套大数据分析模型,在综合了历史表现和近期伤病等情况之后,夺冠几率排在前三位的分别是巴西、阿根廷和德国。看到这个结果,相信很多球迷会大跌眼镜。因为,从目前闯入四分之一决赛的八支队伍来看,巴西怎么看都不是最有冠军气质的球队,而阿根廷,因为过多依赖梅西,似乎也无法走得更远。究竟是数据计算更可靠,还是运气更重要? 作者马继华,关注移动互联,醉心数据分析。微信公众号:北国骑士 |