• 001 Spark的简介以及入门


    1.hadoop,spark,Flink的比较  

      MapReduce: 分布式的计算框架 -> Hive
       问题:
        shuffle:大文件的排序+读写磁盘+网络传输 => 比较慢
        只有两种执行算子/API: MapTask(数据转换+过滤)和ReduceTask(数据聚合) ==> 定制化稍微有点差
        不适合迭代式的计算
        对于需要快速执行的产生结果的应用场景不适合
      Spark:为了解决MapReduce执行慢、不适合迭代执行的问题
      Flink:类似于spark的基于内存的计算框架

        Hadoop的存活:因为使用的机器比较便宜,更适合批量计算。

    2.学习方式

      spark案例:examples文件夹中
      spark源码:一定要回看spark源码,至少常用的必须知道,比如:RDD、SparkContext、DStream....
      官网:http://spark.apache.org/
      1.6.0帮助文档:http://spark.apache.org/docs/1.6.0/
      官方博客:https://databricks.com/blog

      

    3.官网

      http://spark.apache.org/

      

    4.spark特点(在官网的首页)

      快
      简单/入手快
      公用性/普遍性
      可以运行在任何地方:local、yarn、standalone(类似于yarn的一个资源管理框架,是spark的一个模块)、mesos(apache顶级项目,类似yarn的一个资源管理框架)

    5.spark结构(生态圈)

        

      BDAS: 伯克利数据分析栈
      起源:加州大学伯克利分校的AMP实验室开源的一个计算框架
      结构:
        SparkCore: 核心部分
        SparkSQL: Spark中交互式处理模块
        SparkStreaming: Spark中流式数据处理的模块
        SparkMLib:Spark机器学习相关模块 => Mahout
        SparkGraphX: Spark中图形计算的模块

    5.Hadoop与Spark的比较

      

  • 相关阅读:
    举重若轻是一种大气的生活态度
    论自我发展与自我职场生存
    ASP.Net与IIS原理粗浅的理解
    Net反射效率(转载)
    MVC技术
    单件模式 多线程
    公司的机票返利项目总结
    JS调用google地图
    System.Runtime.Serialization报错查找
    信息采集
  • 原文地址:https://www.cnblogs.com/juncaoit/p/6362353.html
Copyright © 2020-2023  润新知