• bigdata_spark_源码修改_本地环境搭建_eclise


    Eclipse 下开发调试环境的配置

    该小节中使用的各项工具分别为:mac (Windows 7)+Eclipse Java EE 4.4.2+Scala 2.10.4+Sbt 0.13.8+Maven3.3.3,测试的 Spark 版本为 1.4.0。

    1.配置 IDE:

    选择菜单项 Help->Install new software,添加站点 http://download.scala-ide.org/sdk/lithium/e44/scala211/stable/site,选择安装 Scala IDE for Eclipse 以及 Scala IDE Plugins。


    对于标准版 Eclipse,还需要安装单独的 Maven 插件。

    出于配置简便考虑,也可以使用 Scala 官方提供的已将所有依赖打包好的 Scala IDE。

    特别的,由于项目本身存在一些错误,请先暂时关闭 Project->Build Automatically 的功能以节省时间。

    2.下载 Spark 源代码:

    创建空目录,执行如下语句:git clone https://github.com/apache/spark.git

    除了使用 git 指令之外,也可以从 Spark 的 Github 页面下载打包好的源代码。

    3.将源码转化为 Eclipse 项目:

    进入源代码根目录,执行如下语句:sbt eclipse。Sbt 执行期间会下载 Spark 所需要的所有 jar 包,因此该步骤会花费很长的时间。其中有一些 jar 包需要使用网络代理等方法才能下载。

    如果sbt不存在 ,brew install sbt

    4.导入项目至 Eclipse:

    选择菜单项 File->Import,并选择 General->Existing Projects into Workspace,项目的根路径选择源代码的根路径,导入所有项目(共有 25 个)。

    5.修改 Scala 版本:

    进入 Preference->Scala->Installations,添加机器上安装的 Scala 2.10.4(选择 lib 目录)。由于该版本 Spark(1.4.0)是在 Scala 2.10.4 的环境下编写的,需要在 Eclipse 中修改项目使用的 Scala 版本。方法为:全选项目,右键选择 Scala->Set the Scala Installation 并选择相应的 Scala 版本。


    6.为 old-deps 项目添加 Scala Library:

    右键选择 old-deps 项目,选择 Scala->Add Scala Library to Build Path。

    7.Maven install 以生成 spark-streaming-flume-sink 所需要的类:

    首先将源代码根目录中的 scalastyle-config.xml 文件复制到 spark-streaming-flume-sink 项目根目录中,而后在 Eclipse 中打开该项目,右键选择 pom.xml 文件,选择 Run as->Maven install。


    8.修改 spark-sql 与 spark-hive 的包错误:

    由于源代码的包设置有错误,为此需要将类文件移至正确的包中


    对于 spark-sql 项目,分别选择 src/test/java 中的 test.org.apache.spark.sql 以及 test.org.apache.spark.sql.sources 包中的所有类,右键选择 Refactor->Move,移动至 org.apache.spark.sql 以及 org.apache.spark.sql.sources 包。

    对于 spark-hive 项目,分别选择 src/test/java 中的 test.org.apache.spark.sql.hive 以及 test.org.apache.spark.sql.hive.execution 包中的所有类,移动至 org.apache.spark.sql.hive 以及 org.apache.spark.sql.hive.execution 包。

    9.编译所有项目:

    打开 Project->Build Automatically 功能,等待所有项目编译成功。

    10.检查是否安装成功:

    将 core 项目中的 src->main->resources->org 文件夹拷贝到 examples 项目中的 target->scala-2.10->classes 中。而后执行 examples 项目中的 org.apache.spark.examples.SparkPi 程序,并设置其 jvm 参数为-Dspark.master=local

  • 相关阅读:
    MinkowskiPooling池化(上)
    稀疏张量基础
    稀疏张量网络
    英伟达TRTTorch
    闵可夫斯基引擎Minkowski Engine
    reactive和reactor
    today search
    today news 2020-8-8
    如何去写一本精品小书?
    today news
  • 原文地址:https://www.cnblogs.com/cphmvp/p/6201885.html
Copyright © 2020-2023  润新知