• 走进Spark--云计算大数据新一代技术


    什么是Spark?

    当然这里说的Spark指的是Apache Spark, Apache Spark is a fast and general engine for large-scale data processing: 一种快速通用可扩展的数据分析引擎。如果想要搞清楚Spark是什么,那么我们需要知道它解决了什么问题,还有是怎么解决这些问题的。

    Spark解决了什么问题?

    在这里不得不提大数据,大数据有两个根本性的问题,一个是数据很大,如何存储?另外一个是数据很大,如何分析?毕竟分析大数据是为了改善产品的用户体验,从而获取更多的价值。

    对于第一个问题,开源社区给出的方案就是HDFS,一个非常优秀的分布式存储系统。

    对于第二个问题,在Hadoop之 后,开源社区推出了许多值得关注的大数据分析平台。这些平台范围广阔,从简单的基于脚本的产品到与Hadoop 类似的生产环境。Bashreduce在 Bash环境中的多个机器上执行 MapReduce 类型的操作,可以直接引用强大的Linux命令。GraphLab 也是一种MapReduce 抽象实现,侧重于机器学习算法的并行实现。还有Twitter 的 Storm(通过收购 BackType 获得)。Storm 被定义为 “实时处理的 Hadoop”,它主要侧重于流处理和持续计算。

    Spark就是解决第二个问题的佼佼者。

    Why Spark?

    现在有很多值得关注的大数据分析平台,那么为什么要选择Spark呢?

    速度

    与Hadoop的MapReduce相比,Spark基于内存的运算比MR要快100倍;而基于硬盘的运算也要快10倍!

    易用

    Spark支持Java,Python和Scala。而且支持交互式的Python和Scala的shell,这意味这你可以非常方便的在这些shell中使用Spark集群来验证你的解决问题的方法,而不是像以前一样,打包。这对于原型开发非常重要!

    Hadoop的WorldCount的Mapper和Reducer加起来要20多行吧。Spark仅需要:

    甚至可以将它们放到一行。

    通用性

    Spark提供了All in One的解决方案!

    Spark All In One的解决方案非常具有吸引力,毕竟任何公司都想要Unified的平台去处理遇到的问题,可以减少开发和维护的人力成本和部署平台的物力成本。

    当然还有,作为All in One的解决方案,Spark并没有以牺牲性能为代价。相反,在性能方面,Spark还有很大的优势。

    Hadoop的集成

    Spark可以使用YARN作为它的集群管理器,并且可以处理HDFS的数据。这对于已经部署Hadoop集群的用户特别重要,毕竟不需要做任何的数据迁移就可以使用Spark的强大处理能力。Spark可以读取 HDFS , HBase , Cassandra 等一切Hadoop的数据。

    当然了对于没有部署并且没有计划部署Hadoop集群的用户来说,Spark仍然是一个非常好的解决方法,它还支持 standalone , EC2 和 Mesos 。你只要保证集群的节点可以访问共享的内容,比如通过NFS你就可以非常容易的使用Spark!

    Spark的现状与未来

    值得庆祝的里程碑:

    ·        2009:Spark诞生于AMPLab

    ·        2010:开源

    ·        2013年6月:Apache孵化器项目

    ·        2014年2月:Apache顶级项目

    ·        Hadoop最大的厂商Cloudera宣称加大Spark框架的投入来取代Mapreduce

    ·        Hadoop厂商MapR投入Spark阵营

    ·        Apache mahout放弃MapReduce,将使用Spark作为后续算子的计算平台

    ·        2014年5月30日Spark1.0.0发布

  • 相关阅读:
    青春小女生 科研大梦想——微软亚洲研究院女实习生的故事
    刷新神经网络新深度:ImageNet计算机视觉挑战赛微软中国研究员夺冠
    优质博士的养成之道——对话2015微软学者奖学金获得者
    洪小文谈科研:自信与谦虚并行
    Java 8 新特性
    Java 实例
    Java 文档注释
    Java Applet 基础
    Java 多线程编程
    Java 发送邮件
  • 原文地址:https://www.cnblogs.com/spark-china/p/3801220.html
Copyright © 2020-2023  润新知