001 Spark的简介以及入门

1.hadoop，spark，Flink的比较　　

　　MapReduce: 分布式的计算框架 -> Hive
　　　问题：
　　　　shuffle：大文件的排序+读写磁盘+网络传输 => 比较慢
　　　　只有两种执行算子/API: MapTask(数据转换+过滤)和ReduceTask(数据聚合) ==> 定制化稍微有点差
　　　　不适合迭代式的计算
　　　　对于需要快速执行的产生结果的应用场景不适合
　　Spark：为了解决MapReduce执行慢、不适合迭代执行的问题
　　Flink：类似于spark的基于内存的计算框架

　 Hadoop的存活：因为使用的机器比较便宜，更适合批量计算。

2.学习方式

　　spark案例：examples文件夹中
　　spark源码：一定要回看spark源码，至少常用的必须知道，比如：RDD、SparkContext、DStream....
　　官网：http://spark.apache.org/
　　1.6.0帮助文档：http://spark.apache.org/docs/1.6.0/
　　官方博客：https://databricks.com/blog

3.官网

　　http://spark.apache.org/

4.spark特点（在官网的首页）

　　快
　　简单/入手快
　　公用性/普遍性
　　可以运行在任何地方：local、yarn、standalone(类似于yarn的一个资源管理框架，是spark的一个模块)、mesos(apache顶级项目，类似yarn的一个资源管理框架)

5.spark结构（生态圈）

　　BDAS: 伯克利数据分析栈
　　起源：加州大学伯克利分校的AMP实验室开源的一个计算框架
　　结构：
　　　　SparkCore: 核心部分
　　　　SparkSQL: Spark中交互式处理模块
　　　　SparkStreaming: Spark中流式数据处理的模块
　　　　SparkMLib：Spark机器学习相关模块 => Mahout
　　　　SparkGraphX: Spark中图形计算的模块

5.Hadoop与Spark的比较

相关阅读:
举重若轻是一种大气的生活态度
论自我发展与自我职场生存
ASP.Net与IIS原理粗浅的理解
Net反射效率（转载）
MVC技术
单件模式多线程
公司的机票返利项目总结
JS调用google地图
System.Runtime.Serialization报错查找
信息采集

原文地址：https://www.cnblogs.com/juncaoit/p/6362353.html