大数据凭借其 数据量大 数据类型多样 产生与处理速度块 价值高 的4V特性 成为学术界和工业界的研究热点 由于传统软件难以在可接受的时间范围内处理大数据 所以学术界和工艺界研发了许多分布式的大数据系统来解决大规模数据的存储 梳理分析和挖掘等问题
比如社交网站 脸书 每天要处理约25亿条消息 所以数据量大(Volume) 除了消息还有视频啊 什么的 数据类型多样(Variety) 而且需要实时的去分析和应对这些消息 所以说产生与处理的速度快(Velocity) 我们可以通过这些数据分析用户的喜好啊 浏览什么的 就可以给对应的用户提供潜在的服务 所以这个价值高(Value) 这就是大数据的4V特性
大数据的处理框架 Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储
目前在学习Spark