Spark环境搭建 - 润新知

Spark环境搭建

一、Spark下载

进入官网下载需要的版本： http://archive.apache.org/dist/spark/

官网下载地址太慢，建议在Apache国内镜像下载

地址1：http://mirror.bit.edu.cn/apache/

地址2：https://mirrors.tuna.tsinghua.edu.cn/apache

地址2貌似速度快一些

hadoop、hbase等Apache旗下的大多都可以

我这里下载的版本时： spark-2.4.7-bin-hadoop2.6.tgz

1、下载后解压

cd /home/tools/spark2

tar -zxvf spark-2.4.7-bin-hadoop2.6.tgz

2、启动spark

/home/tools/spark2/spark-2.4.7-bin-hadoop2.6/bin

./spark-shell

启动成功后如下图所示：

二、使用Spark统计文本的行数

1、数据准备

创建文件 /home/data/helloSpark, 内容如下图所示

2、统计文本的行数

var lines=sc.textFile("/home/data/helloSpark") 加载文件的内容。

lines.count() 进行统计行数

3、统计单词个数

scala> var file=sc.textFile("/home/data/helloSpark")

scala> var wordCounts = file.flatMap(line => line.split(" ")).map((word => (word,1))).reduceByKey(_+_)

scala> wordCounts.collect
res3: Array[(String, Int)] = Array((spark!,1), (man!,1), (hello,3), (world!,1))

作者：Work Hard Work Smart
出处：http://www.cnblogs.com/linlf03/
欢迎任何形式的转载，未经作者同意，请保留此段声明！
相关阅读:
kafka搭建
 kafaka学习笔记
 metastore 简单说明
 二 python并发编程之多进程-理论
 文件指针偏移量
 FTP
1 并发编程
 操作系统简介
 1 网络编程
 网络编程-osi七层
原文地址：https://www.cnblogs.com/linlf03/p/14359101.html

最新文章
武汉一日游
 “失恋”第一天
 实习倒数的日子
 又混了一天班
 nagios
parted
mount
grep
MySQL（5.0~5.7）Linux环境
 shell中的算数运算