1.spark的wordcount解析 - 润新知

1.spark的wordcount解析
一、Eclipse(scala IDE)开发local和cluster

（一）. 配置开发环境
1. 要在本地安装好java和scala。
  由于spark1.6需要scala 2.10.X版本的。推荐 2.10.4，java版本最好是1.8。所以提前我们要需要安装好java和scala并在环境变量中配置好。
2. 下载scala IDE for eclipse安装连接：http://scala-ide.org/download/sdk.html
  打开ide新建scala project
  点击file -> new ->Scala Project ,在弹出的对话框中弹性project name 为“WordCount”，默认点击next，点击finish的。
3. 修改Scala版本
  项目创建完成后默认使用的是scala的2.11.7 版本。要手动将版本换成2.10.X。在项目名称右击选择properties，在弹出窗口点击，scala Compiler，在右侧窗口，选中Use Project settings, 将scala Installation 修改为Latest 2.10 bundle(dynamic).点击apply，点击ok。scala版本变成2.10.6。
4. 找到依赖的spark jar文件并导入到eclipse中。
  所依赖的jar文件是
  spark-1.6.0-bin-hadoop2.6libspark-assembly-1.6.0-hadoop2.6.0.jar。
  在项目名称上右击，选择build path ->configure build path。在弹出框中点击library，点击右侧的addExternalJARs，然后选择
  park-assembly-1.6.0-hadoop2.6.0.jar点击打开，然后点击ok。
（二）、spark程序开发步骤

1. 在src下建立spark程序工程包

在src上右击new ->package 填入package的name为com.dt.spark。

2. 创建scala的入口类。

在包的名字上右击选择new ->scala class 。在弹出框中Name 中，在增加WordCount。点击finish。
在方法内部讲关键字class 改成object ，然后创建main方法。

3. local模式代码方法
相关阅读:
[原创]K8Cscan插件之Mysql密码爆破(内网渗透/支持批量/可跨网段)
[原创]K8Cscan插件之FTP弱口令扫描(内网渗透/支持批量/可跨网段)
[原创]K8Cscan插件之Web主机扫描（存活主机、机器名、Banner、标题）(内网渗透/支持批量/可跨网段)
[原创]K8Cscan插件之存活主机扫描(内网渗透/支持批量/可跨网段)
[原创]K8 Jboss jmx-console getshell exploit
[原创]K8Cscan插件之C段旁站扫描子域名扫描
 [原创]K8mysqlCmd数据库免驱连接工具
 [原创]k8exe2bat任意文件转Bat工具(WebShell无法上传EXE解决方案)
Tensorflow 笔记：第一讲
 数据结构的C语言基础
原文地址：https://www.cnblogs.com/yejibigdata/p/6513688.html

Copyright © 2020-2023 润新知