• 【慕课网实战】Spark Streaming实时流处理项目实战笔记一之铭文升级版


    第一章:课程介绍

    铭文一级:

    VMware Fusion
    Mac上搭建:为了给大家演示如何使用我们的OOTB环境
    Hadoop环境:虚拟机,我是远程登录
    Mac
    那么就不需要使用我们的OOTB环境
    VMware Fusion+OOTB

    Window:VMware

    hadoop/hadoop
    root用户的密码是什么?
    修改配置文件,是需要root权限的,怎么办?
    sudo command

    只有一个地方需要修改:ip地址
    /etc/hosts
    192.168.199.128 hadoop000
    192.168.199.128 localhost

    铭文二级:

    项目需求=>

    1.今天到现在为止的流量访问量

    2.今天到现在为止从搜索引擎引流过来的流量访问量

    处理流程:产生->采集->清洗->分析->入库->可视化

    学习前提基础:1.linux基础 2.java/python/scala其中一种语言 3.hadoop/spark基础

    学习建议=>

    1.笔记(如写博客)

    2.官网(*为apache顶级项目):

    A.官网:*.apache.org

    B.源码:github.com/apache/*

    3.动手

    环境介绍=>

    CenOs6.4、CDH5.7、IDEA、Jdk1.8、Scala2.11.8、Spark2.2.0、flume1.6.0、kafka0.9.0.0、ZooKeeper-3.4.5、Hbase1.2.0

    CDH5的环境网址:http://archive.cloudera.com/cdh5/cdh/5/   (或搜:cdh5 第一个网址)

    OOTB环境使用=>

    用VMware打开hadoop000.vmx文件(若为VMware Fusion环境:选择“已拷贝”、“是”)

    用户:hadoop 密码:hadoop 

    1.ifconfig查询ip地址 2.sudo vi /etc/hosts修改成查到的ip地址

    (远端登录指令:ssh hadoop@192.168.0.1)//ip地址改成自己的

    虚拟机核心文件夹:(/home/hadoop/) app、data、lib、software、source

    若要进行Spark版本的升级(前提需要装好maven)=>

    官网介绍:http://spark.apache.org/docs/latest/building-spark.html(官网主页:Documentation->Latest Release->More->Building Spark)

    中文介绍:https://www.imooc.com/article/18419

    1.jdk升级到1.8    2.scala版本若为2.10,勿忘执行:./dev/change-scala-version.sh 2.10

    环境变量=>

    配置在~/.bash_profile里面

    export MAVEN_HOME=/home/hadoop/app/apache-maven-3.3.9

    export PATH=$MAVEN_HOME/bin:$PATH

    铭文三级:

    问题:虚拟机每次重启,ip地址会自动变化,如何固定?

    方案1:setup--网络设置--不要选dhcp--手动设置ip,掩码---退出---service network restart--ifconfig查看
    或者应用程序--网络--eth0--编辑--使用固定ip--手动输入设置--确定--激活--service network restart--ifconfg查看

    方案2:http://blog.csdn.net/wang_zhenwei/article/details/48706651

    排位赛总结:

    linux vi 删除1行:dd

    ssh hadoop@ip  //注意是hadoop机器,不是用户名

    铭文四级:

    Spark源码编译

    第一种方式:打包成tgz包(custom-spark改成2.6.0-cdh5.7.0

    ./dev/make-distribution.sh --name custom-spark --pip --r --tgz -Phadoop-2.6 -Phive -Phive-thriftserver -Pyarn

    老师参考:
    ./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0

    第二种方式:mvn编译(如今官网-Phadoop是使用2.6.X,所以参数也可以不传递)

    ./build/mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -Phive -Phive-thriftserver -DskipTests clean package

    mvn知识补充:-P传递pom.xml里的profile参数 -D传递dependency参数






  • 相关阅读:
    ORA12560: TNS: 协议适配器错误的问题
    ibatis代码生成工具abator使用全过程
    DbHelper数据操作类
    眼睛有干涩、血丝、怕光,流泪,甚至红肿的现象吗
    Dot.Net代码生成器
    两分钟让你明白什么是ERP
    spring的b/s项目中配置log4j
    十面埋妇
    程序员发展的目标
    标准体重计算查询
  • 原文地址:https://www.cnblogs.com/kkxwz/p/8340881.html
Copyright © 2020-2023  润新知