在谷歌趋势中输入Big Data关键字,你会发现从2012年开始,全球对大数据的关注程度呈指数级上升的态势,到2013年6月接近峰值100。 从经验来看,当人们对某个领域的关注程度到这种程度的时候,该领域也就逐步从概念阶段进入到发展处相关成熟技术的阶段。现实的确如此,大数据已不仅仅是概念的讨论,而是已经在各行各业有了具体的应用场景。
8月份,笔者参加了一个由Forrester咨询公司主办的大数据研讨会,虽然会议中有很多是对他们公司大数据领域相关研究成果的推介,但有些结论依然值得分享:
1. 由于业务的增长等因素,企业内部储存的数据呈爆炸式增长趋势,然而数据实际利用率却非常低,仅占全部数据的12%;
2. 企业内部数据中,非结构化数据占绝大多数,这部分数据对企业的商业战略却最为重要。然而,传统的BI解决方案对非结构化数据的利用面临很大的困难;
3. 基于数据仓库的传统BI结构已无法负载当前巨大的数据量,越来越多的公司将目光转向大数据分析技术,37%公司正在规划大数据项目,20%公司已有实际应用;
4. 大数据解决方案将在数据的一致性和完整性与响应速度和灵活性之间进行权衡,以便实现对业务趋势的实时分析;
在参加这次数据讨论会之前,由于笔者对互联网金融的浓厚兴趣,以及大数据技术在金融领域的广泛应用和前景,笔者阅读过一些大数据相关的资料和书籍。趁现在还有些记忆,在此对大数据的概念,具体应用以及对人们思维的影响做一个系统的梳理和总结。
1. 大数据的定义和人们的思维变革
在谈论大数据变革之前,我们先定义一下什么是大数据?很多人认为大数据是信息时代的产物,数据量累积到一定程度自然而然产生大数据。简单的理解就是大数据就是“数据大”。诚然,从现象上看大数据的特点确实就是“数据大”。但是,数据大只是一个相对概念,何为数据大呢?PB还是ZB呢?如此理解大数据,个人觉得过于简单。我理解大数据的真正意义和价值在于他深刻的变革了这个时代人们的思维方式,总结有如下三点:
a. 不是随机样本,而是全体数据:学过概率的同学都知道随机样本,不得不承认随机样本是一个伟大的发明。因为他在数据采集和处理技术还不足以应付海量数据的时候,找到了一种行之有效的方法,在人们的能力范围之内,通过少量的数据获得尽可能多的信息。但是,事实证明,即使是最好的样本也不可能反映出全部的问题,样本不可避免的会遗漏一些个体信息,要命的是遗漏的有可能是一些关键信息。令人兴奋的是,信息技术发展到现在,数据采集和处理技术已发生翻天覆地的变化,我们已有能力处理海量的数据。此时,我们需要的样本就是总体,也只有全部数据才能获得全部的信息,不忽略任何的个体情况。
b. 不执着于精确性,容忍混杂性:在小数据时代,人们追求数据的精确性。原因很简单,数据量本来就小,如果数据质量再不高,分析出的结果必然是误差很大的。为了提高数据的精确性,研究员们致力于提高数据采集和测量工具的准确性。然而,随着数据量的增长,这种小数据时代的方法已不能奏效,在大数据时代,要求数据没有错误并且格式统一几乎是一件不可能完成的事情,即便有方法做到,他的成本和效率也是无法承受的。所以,在大数据时代,数据的混杂性是不可避免的,主要表现为错误的数据和数据格式的不统一。此时,允许错误的存在,不再执着于精确的答案,而是从海量数据中快速地分析出涌现的趋势更为有价值。正如Forrester咨询公司所认为的,有时候得到2+2=3.9的结果也很不错,足以解决问题。
c. 挖掘相关性,淡化背后的因果关系:从小老师经常告诉我们任何事情要“知其然,亦知其所以然”。挖掘事物间的因果关系一直是推动人类文明的核心价值观。历史上伟大的发明和发现也都是科学家们通过追求因果关系,挖掘现象背后的本质才总结出来的。然而,在大数据时代,事物间的相关关系相比因果关系将表现得更加重要。很多时候,通过分析海量数据,量化两个数据值之间的数理关系,然后总结出两者之间的相关关系已经足够了,我们没有必要知道为什么。比如,沃尔玛通过分析海量的交易数据,发现飓风时蛋挞的销售量会飙升。发现这两者之间的关系后,只要预报将有飓风来临,沃尔玛只要加大蛋挞的供应量就够了,而无需关心为什么。
2. 商务智能的过去、现在和未来
商务智能的起源,也是因为企业收集了前所未有的海量数据。过去,这些数据存在于不同的业务系统中。如:财务系统、客户管理系统等。然而,人们的注意力是有限的,信息越丰富,越凸显出人们注意力的匮乏。所以,当管理层需要看到企业运营的完整图景时,势必要将存储于各分散子系统的数据进行互联整合,产生一副完整、一致的企业运营图景,这被称为:一致的真像(A Single Version of The Truth)。
商务智能的发展动力来源于企业对高效的管理运营并获取超额利润的渴望。所以,明确需求后,商务智能进入了发展的快车道。IBM公司创造性的提出了数据仓库的概念,数据仓库之父比尔·恩门定义:“数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理中的决策制定”。当前,通过ETL(Extraction, Transformation, Load)工具经过提取、转换和装载过程将分散在各子系统中的数据集中到数据仓库中,从而更好的支持管理层决策。
数据仓库建立以后,商务智能的下一个课题联机分析很快进入人们的视野。制定企业战略时,企业管理层会关心基于各个维度统计出来的运营数据。如:企业上半年的销售额是多少?去年哪个业务板块对企业的利润贡献最大?等等诸如此类的问题。基于数据仓库,如何灵活快速的分析出管理层所需要的企业运营数据报表就是联机分析系统的价值所在。到此,大家会以为商务智能已经圆满了。但是,人们总是追求简单易懂的东西,报表数据不仅枯燥,而且面对复杂问题难于理解。此时,数据可视化技术进入了商务智能领域,通过漂亮的图形化工具,能够很好地将复杂问题简单地呈现在人们面前。
商务智能发展到现在,人们很快意识到,通过数据的整合,只是形成了一个数据的统一出口,分析出现有信息,而没有产生知识。商务智能的智能体现为通过分析海量的数据,提取信息,再通过挖掘信息背后的规律,获取知识。例如:“18”是个数据=>“小明18岁高中毕业”是信息=>“大多数人都是18岁高中毕业”是知识。面对获取知识的渴望,数据挖掘技术应运而生,基于现有的信息,挖掘出能够预测未来的知识。
早期的数据挖掘技术主要是基于结构化的关系型数据库。随着大数据时代的到来,科学家们更多的在研究如何挖掘非结构化数据中的潜在知识,非结构化数据才是海量数据中的那80%。可以预见,在大数据时代,商务智能将变得更加智能,使“智能”成为商务智能皇冠上最璀璨的一颗明珠。
3. 大数据技术将成为下一波浪潮
大数据已不再停留在概念阶段,而是已慢慢的飞入寻常百姓家。大家熟知的亚马逊推荐系统,谷歌预测禽流感趋势都是大数据的应用。在此,我想重点介绍谷歌翻译系统的成就,他也是大数据的典型应用。在早期,翻译系统的实现算法基本是模仿人类的思维方式,通过教会计算机理解语法,然后再去翻译语句,这条路子科学家花了很多年时间,翻译的效果一直不好,因为语言的灵活度实在太大,导致分析语法的复杂度太高,甚至变成一项不可能完成的任务。然而,谷歌翻译系统的算法完全颠覆了之前的方法,谷歌翻译系统背后有一个海量的语料库,里面搜集了在互联网上他能找到的全部翻译资源。在翻译时,谷歌的翻译系统其实更像一个搜索系统,当人们输入一句话要翻译,谷歌做的事情是查找语料库中和这句话最匹配的翻译,翻译的效果较基于语法的翻译系统已有质的飞跃。虽然谷歌不是最早采用该算法的,但已是目前做得最好的,原因在于谷歌拥有一个数据量最大的语料库,这也印证了我接下来的观点,拥有数据的公司将占主导地位。诚然,在这个语料库中肯定存在语法和拼写类的错误,但是这些错误毕竟是海量数据中的沧海一粟,几乎不会影响最终的翻译结果。
目前,大数据产业链上主要有三类公司:拥有大数据的公司、掌握大数据分析技术的公司和发现大数据应用场景的公司。笔者以前的一位同事去的就是第二类公司。长远来看,我认为拥有大数据的的公司将站在产业链的顶端,如同房地产产业链中的政府,数据本身如同地皮一样是稀缺资源,很难被超越,得数据者得天下。其他东西都是可以替代的,或者通过努力是可以追赶的。
必须承认,任何事物都是两面的。大数据也给人们的生活带来了潜在的危机,人们会发现这是一个没有隐私的时代,个人的一切行为都会被监视。以前通过匿名方式实现个人数据的安全性在大数据时代已不再奏效,通过大数据的整合很容易将数据和个人对号入座,这也是摆在大数据技术面前的一个问题。但我仍然看好大数据技术,毕竟人们不会因为药物有副作用而选择不治病。随着隐私问题的逐渐解决,在大数据给人们带来的优势面前,些许的缺陷将变得微不足道。
人们对理解世界和预测世界的渴望是推动大数据发展的不竭动力。今天,IT信息技术的变革给人们的生活带来了极大的便利,然而当今变革的重点主要集中在技术(T),而在信息(I)层面很少。我相信信息技术的下一波潮流将是围绕信息(I)展开,这就是大数据时代。