• Spark导论(Spark自学一)


    1.1 Spark是什么?

      Spark是一个用来实现快速而通用的集群计算的平台。

    1.2 一个大一统的软件栈

      Spark项目包含多个紧密集成的组件。

      1.2.1 Spark Core

        Spark Core实现了Spark的基本功能, 包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对RDD的API定义。RDD表示分布在多个计算节点上可以并行操作的元素集合,是Spark主要的变成抽象。

      1.2.2 Spark SQL

        Spark SQL是Spark用来操作结构化数据的程序包。

      1.2.3 Spark Streaming

        Spark Streaming是Spark提供的对实时数据进行流式计算的组件。

      1.2.4 MLlib

        MLlib是一个提供常见的机器学习功能的程序库。

      1.2.5 GraphX

        GraphX是用来操作图的程序库,可以进行并行的图计算。

      1.2.6 集群管理器

        Spark支持在各种集群管理器上运行。

    1.3 Spark的用户和用途

      两大目标群体: 数据科学家的工程师

      两大用途: 数据科学应用和数据处理应用

    1.4 Spark简史

      略

    1.5 Spark的版本和发布

      略

    1.6 Spark的存储层次

      Spark不仅可以将任何Hadoop分布式文件系统(HDFS)上的文件读取为分布式数据集,也可以支持其他支持Hadoop接口的系统。

        

      

  • 相关阅读:
    css3实现文本渐变
    元组--购物车实战
    js事件冒泡
    openssl生成v3版自签证书
    linux中可以在哪些地方增加环境变量
    linux下如何找到USB转串口
    linux下通过shell命令测试串口
    CANopen协议
    ubuntu使用虚拟can(vcan)
    移植python3到flash有限的arm
  • 原文地址:https://www.cnblogs.com/zhangtianyuan/p/7645739.html
Copyright © 2020-2023  润新知