• spark编程


    Spark应用程序由两部分组成:

    1.DRIVER

    2.Executor

    基本概念:

    Application:Spark应用程序,包含一个Driver program和若干个Executor

    SparkContext:Spark应用程序的入口,负责调度各个运算资源,协调各个Worker Node 的Executor

    Driver program: 运行Application的main()函数并创建SparkContext

    Executor:Application运行在Work node上的一个进程,进程负责运行Task

    并且负责将数据存在内存或磁盘上;

    Work node:集群中运行Application代码的节点

    Cluster Manager: 集群上获取资源的外部服务

    Job :作业被拆分成并行计算的工作单元

    Stage:每个Job被拆分成多组任务(TASK) ,每组TASK被称为Stage

    RDD:Spark最核心的模块,弹性分布式数据集

     Spark可以将任何Hadoop所支持的存储资源(本地文件、HDFS、HBase)转换成RDD.

    比如使用textFile方法将本地文件或hdfs文件转换成RDD

    textFile("/dfs/directory")

    textFile("file:///dfs/data/a.txt")

  • 相关阅读:
    HDOJ.1029 Ignatius and the Princess IV(map)
    STL之map
    STL之map
    UVA.1584 环状序列
    UVA.1584 环状序列
    AOJ. 数组训练.2016-11-17
    AOJ. 数组训练.2016-11-17
    AOJ.592 神奇的叶子
    AOJ.592 神奇的叶子
    技能书
  • 原文地址:https://www.cnblogs.com/liuguangshou123/p/14220593.html
Copyright © 2020-2023  润新知