身边的大数据和我们的着手点
2014年8月17日~
从上次在图书馆外等小孩借书开始考虑这个问题,已经有好几个月了。一直在思考,也动手做了一些尝试,但是一直“在过程中”。期间,再次翻阅了《大数据时代》和相关的网上资源,每天除了工作,总在思考将这段的思路总结一下。
早期的精确统计,或随机取样,到现在的“样本=全部”的大数据思想出现,我感觉我们可以做点事情了。虽然一直忙碌于“企业应用”的事情,不过总有一份“互联网的基因”存在。从最早采集的50多POI,到最近收集的300多移动上网过程数据,做一个数据分析,做一下大数据时代的尝试。
大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见,但是如今的信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚光灯打想“I”,开始关注信息本身了。
不论是成熟的互联网还是正热的移动互联,都在每天产生大量的数据,如果不进行处理挖掘,这些数据将总是沉睡冰藏在各地的硬盘中。现在处理能力和存储空间都变的越来越廉价,是时候将“数据”变成“信息”,将“信息”变成“知识”,用知识来指导组织的运营和个体的日常生活了。
“数据”可能还是硬盘的负载,“知识”就是提高人们幸福感的源泉。
本文是我在“负载”向“源泉”前进过程中的一些思考总结,供见着参考,希望同业者交流。
一、 多大算是大数据
据说微软的拼写检查基础数据量是千万条,谷歌的的智能翻译基础数据量是千亿,有次听利物浦大学的教授讲的,所谓“大数据”至少要到10的10次方,到这个数量级,我们平常的数据来源是较难得到了。
不过,看《大数据时代》分析的摔跤比赛样本,使用的是“11年时间里,约64000场摔跤比赛的记录”,要通过这些大数据来寻找其异常性。还是分析出了比赛成败的人为因素和心理因素。
看来,所谓“大”,也要看数据样本的对象了。所以我把这里叫做“身边的大数据”比较合适。这里的身边的大数据包括:我对自己的位置行为采集和记录,一些参与测试者的上网过程记录。
如果,你有自己的大数据资源,我们也可以一起分析。
二、 对大数据的期望
面对一个数据集合的时候,人都带有一定期望的,至少是“初步的认识和期望”。如果漫无目的地“从里面找出规律”,也不知道是什么规律了。
“对数据特征的初步了解和理解”,任何事情不可能凭空造出个算法或模型来,就像“TRIZ理论”,对发明问题也可以提供些解决套路一样。
听过一个恐龙级公司分析银行数据,基本的期望包括:
l 银行用户的资金变动情况,逐减的是夕阳客户,波动式上升的就是朝阳客户。
l 朝阳客户的地域分布情况,增加相应的门店和客服经理,提升客户服务的满意度。
l 朝阳客户的行为特征,提供更加贴心的服务,挖掘潜在的客户价值。
l 门店的储户增长情况,储蓄增长情况。月度,年度波动情况,避免骗储增业绩的情况。
l 在初期“期望项”之外,在数据分析过程中,一些中间结果,做一些统计分析,可以产生其它数据结果,比如:
n 客户的年龄段
n 不同客户到访门店的时间段特征
n 不同时间段,不同门店的排队情况
n 重要客户车位占用和预留计划
n 客流量和天气的关联变动
n 储蓄量、投资量与国家经济增长的关联变化
n 银行关键业务指标预测和后续投资量
n 投资和风险回报的关联关系
三、 数据处理过程和产生的结果
首先,持有一个大数据集(比如银行),或者能获得持续增长的大数据源(比如互联网应用),根据对数据特征的初步了解和理解,进行统计分析,可以产生初步的数据规律模型。
模型的建立和改进,可以从以下维度,从对数据的基础特性了解和理解,建立多维度模型:
l 期望的结果模型
l 分析过程中间结果模型
l 实际结果模型
l 人工辨识的数据特征模型
l 多维度数据统计模型
2014年9月3日,百度世界发布的大数据应用产品“城市预测”,“景点预测”,“高考预测”,“世界杯预测”,“欧洲联赛预测”,“经济指数预测”。虽然感觉玄妙,但是对掌握这样的资源,有能建立相应的预测模型还是佩服不已。
四、 我的数据处理模型
建模(提纲):
l 时间特性
l 地点和位置特性
l 日增特性
l 人的移动特性(轨迹)
l 异常排序统计
l 上网过程和天气变化的关联
l 综合分析出人的特性
至目前,已有的“大数据集”,按照以上模型进行一次单机“非遍历”处理,需要45分钟以上。接下来我计划进行一些专业处理环境的搭建和尝试。
欢迎关注后续。谢谢!
五、 附录
Hadoop和Storm
Storm是一个免费开源、分布式、高容错的实时计算系统。它与其他大数据解决方案的不同之处在于它的处理方式。
Hadoop 在本质上是一个批处理系统,数据被引入Hadoop文件系统 (HDFS) 并分发到各个节点进行处理。当处理完成时,结果数据返回到 HDFS 供始发者使用。Hadoop的高吞吐,海量数据处理的能力使得人们可以方便地处理海量数据。但是,Hadoop的缺点也和它的优点同样鲜明——延迟大,响应缓慢,运维复杂。Storm就是为了弥补Hadoop的实时性为目标而被创造出来。
S语言和R语言
S语言是由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。它的丰富的数据类型(向量、数组、列表、对象等)特别有利于实现新的统计算法,其交互式运行方式及强大的图形及交互图形功能使得我们可以方便的探索数据。
目前S语言的实现版本主要是S-PLUS。它基于S语言,并由MathSoft公司的统计科学部进一步完善。作为统计学家及一般研究人员的通用方法工具箱,S-PLUS强调演示图形、探索性数据分析、统计方法、开发新统计工具的计算方法,以及可扩展性。
S-PLUS可以直接用来进行标准的统计分析得到所需结果,但是它的主要的特点是它可以交互地从各个方面去发现数据中的信息,并可以很容易地实现一个新的统计方法。
R语言是统计领域广泛使用的,诞生于1980年左右的S语言的一个分支。 R语言是S语言的一种实现。S语言是由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。
R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。与其说R是一种统计软件,还不如说R是一种数学计算的环境,因为R并不是仅仅提供若干统计程序、使用者只需指定数据库和若干参数便可进行一个统计分析。R的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。