Spark应用程序由两部分组成:
1.DRIVER
2.Executor
基本概念:
Application:Spark应用程序,包含一个Driver program和若干个Executor
SparkContext:Spark应用程序的入口,负责调度各个运算资源,协调各个Worker Node 的Executor
Driver program: 运行Application的main()函数并创建SparkContext
Executor:Application运行在Work node上的一个进程,进程负责运行Task
并且负责将数据存在内存或磁盘上;
Work node:集群中运行Application代码的节点
Cluster Manager: 集群上获取资源的外部服务
Job :作业被拆分成并行计算的工作单元
Stage:每个Job被拆分成多组任务(TASK) ,每组TASK被称为Stage
RDD:Spark最核心的模块,弹性分布式数据集
Spark可以将任何Hadoop所支持的存储资源(本地文件、HDFS、HBase)转换成RDD.
比如使用textFile方法将本地文件或hdfs文件转换成RDD
textFile("/dfs/directory")
textFile("file:///dfs/data/a.txt")