Spark寒假自学第三天

在今天的学习中了解到Spark的一些东西在这里记录一下

应用前景：

Spark流程：

还了解到一些名词：

RDD:是（Resillient Distributed Dataset）弹性分布式数据集的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模式。
DAG:是Directed Acyclis Graph(有向无环图)的简称，反应RDD之间的依赖关系
Executor:是运行在工作节点（Worker Node）上的一个进程，负责运行Task
Application：用户编写的Spark应用程序
Task：运行在Executor上的工作单元
Job：一个job包含多个RDD及作用于相应RDD上的各种操作
Stage：是Job的基本调度单位，一个job会分为多组task，每组task被称为stage，或者taskstage，代表一组关联的、相互之间没有shuffle依赖关系的任务组成的任务集。

有一天过去了！很充实！

相关阅读:
Netty相关知识积累
Java内存管理
使用nginx-upload-module搭建文件上传服务器
mysql 5.7自动安装脚本
CDH5集群搭建
Linux常用命令
编译原理要点四
编译原理要点三
编译原理要点二：
编译原理要点

原文地址：https://www.cnblogs.com/jinseliunian/p/12257995.html