参考这篇:
https://blog.csdn.net/jiandanjinxin/article/details/54633475
存在和利用这种倒‘因’为‘果’的feature的现象,叫数据竞赛中的Data Leakage。
Data Leakage的原因
以此我们可以看出,Data Leakage 基本都是在准备数据的时候,或者数据采样的时候出了问题,误将与结果直接相关的feature纳入了数据集。这样的纰漏,比较难以发现。
必须重视因果性
我们再把讨论往前推一步:大数据,是要相关性,还是因果性?
《大数据时代》是本大毒草 —— Professor M from Computer Science in University of Michigan
数据应用学院专门组织过讨论,集中批判一本畅销书《大数据时代》。这本书的主要观点就是,在大数据时代,要放宽对因果性的要求,充分利用相关性去挖掘数据的价值。我们上面的案例分析再一次证明,这样的观点是危险的。
而且,在数据科学家的Skillset中,为什么除了计算机技能,统计分析外,还要加一个“行业知识”?这其实是要求数据科学家能够利用行业知识来判断数据模型中的因果关系是否有价值,还是落脚到因果关系上。