• Spark安装过程纪录


    1 Scala安装

    1.1 master 机器

    修改 scala 目录所属用户和用户组。

    	sudo chown -R hadoop:hadoop scala
    

    修改环境变量文件 .bashrc , 添加以下内容。

    	# Scala Env
    	export SCALA_HOME=/home/hadoop/opt/scala
    	export PATH=$PATH:$SCALA_HOME/bin
    

    运行 source .bashrc 使环境变量生效。

    验证 Scala 安装

    	$scala
    	scala > 1+1 
    

    1.2 Slaver机器

    参照 master 机器安装步骤进行安装。

    2 Spark安装

    2.1 master 机器

    修改 spark目录所属用户和用户组。

    	chown -R hadoop:hadoop spark
    

    修改环境变量文件 .bashrc , 添加以下内容。

    	# Spark Env
    	export SPARK_HOME=/home/hadoop/opt/spark
    	export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
    

    运行 source .bashrc 使环境变量生效。

    修改配置文件

    进入 Spark 安装目录下的 conf 目录, 拷贝 spark-env.sh.template 到 spark-env.sh。

    	cp spark-env.sh.template spark-env.sh
    

    编辑 spark-env.sh,在其中添加以下配置信息:

    	export SCALA_HOME=/home/hadoop/opt/scala
    	export JAVA_HOME=/home/hadoop/opt/java/jdk1.8
    	export SPARK_MASTER_IP=192.168.109.137
    	export SPARK_WORKER_MEMORY=1g
    	export HADOOP_CONF_DIR=/home/hadoop/opt/hadoop/etc/hadoop
    
    • JAVA_HOME 指定 Java 安装目录;
    • SCALA_HOME 指定 Scala 安装目录;
    • SPARK_MASTER_IP 指定 Spark 集群 Master 节点的 IP 地址;
    • SPARK_WORKER_MEMORY 指定的是 Worker 节点能够分配给 Executors 的最大内存大小;
    • HADOOP_CONF_DIR 指定 Hadoop 集群配置文件目录。

    将 slaves.template 拷贝到 slaves, 编辑其内容为:

    	Slaver1
    

    如果在slaves中有Master,即 Master 既是 Master 节点又是 Worker 节点。(怎么规划需根据实际需求进一步考量)

    2.2 slave机器

    参照 master 机器安装步骤进行安装。

    2.3 启动 Spark 集群

    2.3.1 启动 Master 节点

    运行 start-master.sh,结果可以看到 master 上多了一个新进程 Master。

    2.3.2 启动所有 Worker 节点

    运行 start-slaves.sh, 运行结果在slaves内设定的节点上使用 jps 命令,可以发现都启动了一个 Worker 进程。

    2.4 验证安装

    2.4.1 WEB UI

    浏览器查看 Spark 集群信息

    访问:http://master:8080

    2.4.2 运行spark-shell

    执行些什么都行。

    2.4.3 浏览器访问 SparkUI

    访问 http://master:4040

    2.5 停止 Spark 集群

    2.5.1 停止 Master 节点

    运行 stop-master.sh 来停止 Master 节点。使用 jps 命令查看当前 java 进程,可以发现 Master 进程已经停止。

    2.5.2 停止 Worker 节点

    运行 stop-slaves.sh 可以停止所有的 Worker 节点。使用 jps 命令查看进程信息。可以看到, Worker 进程均已停止,最后再停止 Hadoop 集群。

    3 参考文献

  • 相关阅读:
    [LeetCode] 714. Best Time to Buy and Sell Stock with Transaction Fee
    [LeetCode] 309. Best Time to Buy and Sell Stock with Cooldown
    [LeetCode] 1291. Sequential Digits
    [LeetCode] 188. Best Time to Buy and Sell Stock IV
    [LeetCode] 123. Best Time to Buy and Sell Stock III
    [LeetCode] 581. Shortest Unsorted Continuous Subarray
    [LeetCode] 1041. Robot Bounded In Circle
    [LeetCode] 1110. Delete Nodes And Return Forest
    [LeetCode] 421. Maximum XOR of Two Numbers in an Array
    [LeetCode] 1109. Corporate Flight Bookings
  • 原文地址:https://www.cnblogs.com/d0main/p/7080899.html
Copyright © 2020-2023  润新知