眼前的困难和问题,很可能是过去没有准备的结果;而现在的失败,往往是过去草率行事的结果。同样,工业大数据浪潮来了,却会发现积累了多年的数据没法用。我总结了一下,大体有三种原因:
1、数据对应不上
围绕同一个对象或过程的数据都有记录,但串不起来。比如,一个产品是某设备生产的。产品信息却无法与设备生产的时间对上。
2、数据结构杂乱
围绕特定事件或产品的信息很多,但数据没有被结构化地组织起来,想找的时候却找不到。
3、错用分析方法
许多传统分析方法其实非常有效,如方差分析、回归分析、决策树。很多人知道这些方法,却只会生搬硬套。硬套不行就责怪方法不行,转而去找些时髦的方法。
前两个问题根源是收集数据时指导思想的浮躁:只要把数据都收集上来就行了,以为数据“全”了就能用。第三个问题的根源则在于对学问的浮躁:很多人以为自己懂了,用不好就怪基本方法。另外,学术界为了发文章,过度推崇新方法也是导致浮躁的重要诱因。
由此观之,从事分析工作之前,应复习一下小学老师的教诲:戒骄戒躁。