• 在CM管理的大数据平台上集成spark2


    这几天在写一个spark的程序做数据的迁移工作,但是我看了一下cm管理的spark的版本是1.6.0的spark(我们集群安装的cm的版本是5.14.0的版本)于是就要将spark2集成到我们的大数据管理平台当中去。步骤如下:

    通过这张图我们可以看到,在cm的管理平台上,有两种集成模式的spark。其中一个是spark on  yarn模式的spark,一种是spark 在standlone模式的spark。这两个都不是我们想要的模式。于是要进行集成spark2.

    安装准备:

    (1)准备csd包:http://archive.cloudera.com/spark2/csd/

    在这里选择自己要安装的spark2的安装包,这里需要注意一下啊,如果你的jdk的版本不是1.8的不要装spark2.2的版本,即使装好了后面也要卸载掉。不要给自己找麻烦

    (2)parcel包:http://archive.cloudera.com/spark2/parcels/2.1.0.cloudera3/

    注意,下载对应版本的包,我的CentOS7,所以下载el7的包,若是CentOS6,就要下el6的包。这里对应的cloudera的版本一定也要对应上

     准备好需要的包,现在开始安装:

    (1)操作前停掉集群的所有服务

    (2)接下来在执行下面的命令

             上传CSD包到机器的/opt/cloudera/csd目录,并且修改文件的用户和组。

    chown cloudera-scm:cloudera-scm SPARK2_ON_YARN-2.1.0.cloudera3.jar  

    chmod 644 SPARK2_ON_YARN-2.1.0.cloudera3.jar 修改jar包的执行权限

    (3)上传parcel包到机器的/opt/cloudera/parcel-repo目录下。注意,。如果有其他的安装包,不用删除 ,但是如果本目录下有其他的重名文件比如manifest.json文件,把它重命名备份掉。然后把那3个parcel包的文件放在这里。

     

     这里需要注意的是,将下载的sha1文件重命名为以sha结尾的文件,这样数据才能读到。

    (4)现在重启一下cm。启动命令如下

    service cloudera-scm-server restart  这个是重启一下cm的server
    service cloudera-scm-agent restart   这个是重启一下cm的agent,这里重启所有节点上的agent。

    (5)把CM和集群启动起来。然后点击主机->Parcel页面,看是否多了个spark2的选项。如下图,你这里此时应该是分配按钮,点击,等待操作完成后,点击激活按钮

     然后到管理界面,添加spark2的服务即可。

     最终服务添加完成。算是整个的安装步骤结束。

    集成好了spark2之后,我们就需要通过oozie来调度spark的程序。下一篇介绍通过hue使用oozie来调度spark2程序。

  • 相关阅读:
    Struts2文件上传和下载
    Struts2自定义类型转换器
    struts2数据处理的几种方式
    Struts2常量_Action配置路径_通配符
    Struts框架
    struts入门
    Log4J日志组件
    处理文件上传与下载
    文件上传
    国际化和本地化
  • 原文地址:https://www.cnblogs.com/gxgd/p/9951717.html
Copyright © 2020-2023  润新知