• spark学习进度01(安装环境搭建集群搭建)


    1、spark的相关特点

    速度快、易用、通用、兼容


    速度快::
    +
    --
    * Spark 的在内存时的运行速度是 Hadoop MapReduce 的100倍
    * 基于硬盘的运算速度大概是 Hadoop MapReduce 的10倍
    * Spark 实现了一种叫做 RDDs 的 DAG 执行引擎, 其数据缓存在内存中可以进行迭代处理
    --

    易用::
    +
    --
    [source,java]
    ----
    df = spark.read.json("logs.json")
    df.where("age > 21")
    .select("name.first")
    .show()
    ----
    * Spark 支持 Java, Scala, Python, R, SQL 等多种语言的API.
    * Spark 支持超过80个高级运算符使得用户非常轻易的构建并行计算程序
    * Spark 可以使用基于 Scala, Python, R, SQL的 Shell 交互式查询.
    --

    通用::
    +
    --
    * Spark 提供一个完整的技术栈, 包括 SQL执行, Dataset命令式API, 机器学习库MLlib, 图计算框架GraphX, 流计算SparkStreaming
    * 用户可以在同一个应用中同时使用这些工具, 这一点是划时代的
    --

    兼容::
    +
    --
    * Spark 可以运行在 Hadoop Yarn, Apache Mesos, Kubernets, Spark Standalone等集群中
    * Spark 可以访问 HBase, HDFS, Hive, Cassandra 在内的多种数据库
    --

    2、安装配置spark

    找到对应的spark版本,与hadoop的版本是对应的。

    修改sparh.env.sh

    进行分发操作:

    启动操作:

  • 相关阅读:
    Docker
    Docker
    Docker
    Docker
    Docker
    Docker
    pandas——向已经存在的excel数据写入data
    python——利用UI选择路径
    python——装饰器的使用
    python——生成器(协程)gevent多任务
  • 原文地址:https://www.cnblogs.com/dazhi151/p/14248465.html
Copyright © 2020-2023  润新知