• Spark安装过程纪录


    1 Scala安装

    1.1 master 机器

    修改 scala 目录所属用户和用户组。

    	sudo chown -R hadoop:hadoop scala
    

    修改环境变量文件 .bashrc , 添加以下内容。

    	# Scala Env
    	export SCALA_HOME=/home/hadoop/opt/scala
    	export PATH=$PATH:$SCALA_HOME/bin
    

    运行 source .bashrc 使环境变量生效。

    验证 Scala 安装

    	$scala
    	scala > 1+1 
    

    1.2 Slaver机器

    参照 master 机器安装步骤进行安装。

    2 Spark安装

    2.1 master 机器

    修改 spark目录所属用户和用户组。

    	chown -R hadoop:hadoop spark
    

    修改环境变量文件 .bashrc , 添加以下内容。

    	# Spark Env
    	export SPARK_HOME=/home/hadoop/opt/spark
    	export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
    

    运行 source .bashrc 使环境变量生效。

    修改配置文件

    进入 Spark 安装目录下的 conf 目录, 拷贝 spark-env.sh.template 到 spark-env.sh。

    	cp spark-env.sh.template spark-env.sh
    

    编辑 spark-env.sh,在其中添加以下配置信息:

    	export SCALA_HOME=/home/hadoop/opt/scala
    	export JAVA_HOME=/home/hadoop/opt/java/jdk1.8
    	export SPARK_MASTER_IP=192.168.109.137
    	export SPARK_WORKER_MEMORY=1g
    	export HADOOP_CONF_DIR=/home/hadoop/opt/hadoop/etc/hadoop
    
    • JAVA_HOME 指定 Java 安装目录;
    • SCALA_HOME 指定 Scala 安装目录;
    • SPARK_MASTER_IP 指定 Spark 集群 Master 节点的 IP 地址;
    • SPARK_WORKER_MEMORY 指定的是 Worker 节点能够分配给 Executors 的最大内存大小;
    • HADOOP_CONF_DIR 指定 Hadoop 集群配置文件目录。

    将 slaves.template 拷贝到 slaves, 编辑其内容为:

    	Slaver1
    

    如果在slaves中有Master,即 Master 既是 Master 节点又是 Worker 节点。(怎么规划需根据实际需求进一步考量)

    2.2 slave机器

    参照 master 机器安装步骤进行安装。

    2.3 启动 Spark 集群

    2.3.1 启动 Master 节点

    运行 start-master.sh,结果可以看到 master 上多了一个新进程 Master。

    2.3.2 启动所有 Worker 节点

    运行 start-slaves.sh, 运行结果在slaves内设定的节点上使用 jps 命令,可以发现都启动了一个 Worker 进程。

    2.4 验证安装

    2.4.1 WEB UI

    浏览器查看 Spark 集群信息

    访问:http://master:8080

    2.4.2 运行spark-shell

    执行些什么都行。

    2.4.3 浏览器访问 SparkUI

    访问 http://master:4040

    2.5 停止 Spark 集群

    2.5.1 停止 Master 节点

    运行 stop-master.sh 来停止 Master 节点。使用 jps 命令查看当前 java 进程,可以发现 Master 进程已经停止。

    2.5.2 停止 Worker 节点

    运行 stop-slaves.sh 可以停止所有的 Worker 节点。使用 jps 命令查看进程信息。可以看到, Worker 进程均已停止,最后再停止 Hadoop 集群。

    3 参考文献

  • 相关阅读:
    ASP.NET CORE 使用Consul实现服务治理与健康检查(2)——源码篇
    ASP.NET CORE 使用Consul实现服务治理与健康检查(1)——概念篇
    Asp.Net Core 单元测试正确姿势
    如何通过 Docker 部署 Logstash 同步 Mysql 数据库数据到 ElasticSearch
    Asp.Net Core2.2 源码阅读系列——控制台日志源码解析
    使用VS Code 开发.NET CORE 程序指南
    .NetCore下ES查询驱动 PlainElastic .Net 升级官方驱动 Elasticsearch .Net
    重新认识 async/await 语法糖
    EF添加
    EF修改部分字段
  • 原文地址:https://www.cnblogs.com/d0main/p/7080899.html
Copyright © 2020-2023  润新知