大数据4个明显的特征,大数据思维四个递进的层次
大数据4个明显的特征:
1.数据量足够大,要大到让统计的结果具有非常高的置信度
2.具有多维度的特征,而且各个维度最好是正交的
3.数据的完备性,完备性使得大数据可以算无遗策
4.在一些场景下的实时性,比如堵车信息一定时间过了数据就失去意义了
--------
大数据思维四个递进的层次:
第一层:从大量的、看似杂乱无章的数据点,总结出原来找不到的相关性。
第二层:不事先作假定,从大数据出发先得到结论,再分析原因。
第三层:利用大数据在准确把控宏观规律的同时,精确到每一个细节。
第四层:用不同维度找到的强相关性可以取代因果关系。
--------------
大数据的4个明显的特征,即数据量大、多维度、完备性和在一些场景下的实时性。我们特别强调了光是数据量大还不能构成大数据,因为它可能无法得出有效的统计规律,而多维度的特征则让我们可以交叉验证信息,提高准确性。
--------------
首先,大数据要求数据量大,这一点大家没有疑问。数据量小一定不符合大数据的原则。至于数据量多大合适,我们在前面介绍了置信度的概念,数据至少要大到让统计的结果具有非常高的置信度。
其次,大数据需要具有多维度的特征,而且各个维度最好是正交的。今天,淘宝或者其他网店,能够有效地给你推荐产品,在很大程度上就是因为它不仅具有了你在网上购物的数据,而且还从其他渠道,包括在你不知不觉中,获得了生活上的信息。
比如,它可以根据你上网的行为,了解你的年龄、性别和教育背景,根据你晚上和白天的地点,了解你的工作地点和住址,甚至你的工作性质和生活习惯,比如是否经常出差,在什么样的饭店吃过饭,是否爱运动,是否使用名牌产品等等。
由于阿里巴巴数据收集的时间跨度比较长,它还可以看出人们消费习惯的变化。根据这些信息,它就知道你是谁,需要什么。在没有大数据之前,这种事情很难做到。
大数据第三个重要特征,是数据的完备性,它在过去常常被人忽略,因为人类过去使用数据,都是采用抽样的办法来获取,根本不可能做到完备。抽样统计有一个问题,就是总有5%左右的小概率事件覆盖不到,如果最后运气不好,正好落在那5%,统计的方法就失去作用了。
今天情况就不同了,因为收集数据的设备无所不在,我们也在有意无意向它输送数据,因此获得完备的信息完全可能,这样一来就堵住了采用数据作预测的死角。
我们在前面讲到提高名片识别率的方法,就是从网上抓取全部的企业和私人联系地址,拿它们和从名片识别出的信息进行比对,就可以过滤掉几乎所有的错误。这里面其实就是用到了数据的完备性——也就是说,全部的地址、电话等数据我都收集完备了。完备性使得大数据可以算无遗策。
除了上述三个特征,很多时候大数据还需要具有实时性,因为在那些应用场景,一定时间过了,数据就失去意义了。
--------------
我们过去说,量变会带来质变,那常常是在一个维度上说的,而今天我们说大数据思维,已经超出了这一层含义,是一种全新的思维方式和做事情的方法。
今天大部分人所理解的大数据,是从大量的、看似杂乱无章的数据点,总结出原来找不到的相关性。在这个过程中各种数据如同百川入海一般汇聚到一起。我们在前面已经举了不少这一类的例子。但这只是大数据思维的第一层含义。
我们需要强调的是,大数据思维和过去通过大量数据验证一件事还是有区别的。那就是由于这些数据在产生和收集时是没有特定目的的,因此怎样使用它们,则需要视特定的应用而定。
比如Google趋势这个产品就用到了大数据,由于收集数据事先没有目的性,从这些数据中能够得到什么结果事先也不知晓,这让它发现了很多过去没有想到的规律。
今天这种做法其实是先有了结果,再反推原因,是一种逆向的做法,但是正是因为有了足够的数据支持,它无疑会比较快。不事先作假定,从大数据出发先得到结论,再分析原因,这是大数据思维的第二层。
因此,用不同维度找到的强相关性可以取代因果关系,这是大数据思维的第四个层次。