• Spark寒假自学第三天


    在今天的学习中了解到Spark的一些东西在这里记录一下

    应用前景:

    Spark流程:

    还了解到一些名词:

    RDD:是(Resillient Distributed Dataset)弹性分布式数据集的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模式。
    DAG:是Directed Acyclis Graph(有向无环图)的简称,反应RDD之间的依赖关系
    Executor:是运行在工作节点(Worker Node)上的一个进程,负责运行Task
    Application:用户编写的Spark应用程序
    Task:运行在Executor上的工作单元
    Job:一个job包含多个RDD及作用于相应RDD上的各种操作
    Stage:是Job的基本调度单位,一个job会分为多组task,每组task被称为stage,或者taskstage,代表一组关联的、相互之间没有shuffle依赖关系的任务组成的任务集。

    有一天过去了!很充实!

  • 相关阅读:
    Netty相关知识积累
    Java内存管理
    使用nginx-upload-module搭建文件上传服务器
    mysql 5.7自动安装脚本
    CDH5集群搭建
    Linux常用命令
    编译原理要点四
    编译原理要点三
    编译原理要点二:
    编译原理要点
  • 原文地址:https://www.cnblogs.com/jinseliunian/p/12257995.html
Copyright © 2020-2023  润新知