• centos7.2 64位 hadoop2.7.3 安装 hawq 2.10 随笔啊随笔而已。


    在谷歌趋势上看,spark全球火,而hawq除了中国其他地方也比较火,尤其德国芬兰hawq火。有意思的是hawq的开发团队的老大是华人,是北京某著名大学的08届博士!团队也有好多华人

    hive的感觉很呆板,spark天马行空但吃内存并发底。pgsql-->greenplum-->hawq,一路走来,hawq算是够了。hawq的缺点是开发麻烦,CPP语言么!spark用scala语言,代码量少,开发快。

    hawq是计算存储分离,使用p2p udp快速传输数据。而spark计算和存储一体,RDD尽量放入内存,占用内存大。

    还有,hawq应该不用mapred模型,所以这个实验你不配置mapred也没关系了。

    我单节点装了hawq,从源代码编译。到20170411:22:17:13:452250 hawq_init:t430:gpadmin-[INFO]:-Init HAWQ cluster successfully
    做个笔记。有同行用到了,最好不过。

    主要安装资料

    Apache Hadoop 2.7.3 – Hadoop: Setting up a Single Node Cluster.

    https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

    但节点安装hadoop,而非local模式.。hadoop应该放在/home下,而非用户目录下,更不应该是/root下。否则很麻烦

    因为hawq资源管理配置文件里可以用no,而非yarn,所以yarn可以不装。no表示用hawq自己的资源管理框架。

    https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=61320026 这是apache社区的资料。英文。

    https://mp.weixin.qq.com/s?__biz=MzAwMzcyMzEyOQ==&mid=2656640507&idx=1&sn=5c4c48d1aa082374ac59adf0ea51a648&pass_ticket=SMMJxi09RPEUiBXeCWsaJyIycUFKmjbaEQNm1IjphVzh5mvtC3ODZpWPI2skvTOp

    这是hawq中文的weixin号的文章。

    编译完后,hawq被装在/usr/local/hawq下。要求gpadmin对hawq/etc有完全权限。我设owner是gpadmin,然后目录和文件权限777了。

    然后hawq init cluster是以gpadmin身份执行的。

    下面把配置文件贴下。

    [root@t430 hadoop]# cat bash_profile 
    export base1=/home
    export JAVA_HOME="$base1/hadoop/jdk1.8.0_111"
    export SCALA_HOME="$base1/hadoop/scala-2.11.8"
    export HADOOP_HOME="$base1/hadoop/hadoop-2.7.3"
    export SPARK_HOME="$base1/hadoop/spark-2.1.0-bin-hadoop2.7"
    export PATH="$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SPARK_HOME/bin:$PATH"
    export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
    export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
    
    [root@t430 hadoop]# 
    

     配置文件中spark和scala是另一个里面的,您不需要这两项。

    注意,hawq中hdfs 端口认8020,而hadoop2.7.3默认是9000。这个我们改hadoop这边的。

    涉及到环境变量自动设置的问题。每次登陆都执行一次source bash_profile不应该吧。可以cat bash_profile>>~/.bashrc ,就是把环境变量内容追加到.bashrc中,用户登陆时会自动初始化。建议把/usr/local/hawq/gree*.sh也追加到bashrc中。

    编译hawq要下载很多东西。

    make -j8 这个命令有用,虽然名字起的很随意。要用的。用的时候下载了一堆java的东西,又慢,所以配置了maven的aliyun镜像,简直快。
    [root@t430 ~]# cat ~/.m2/settings.xml 
    <?xml version="1.0" encoding="UTF-8"?>  
    <settings xmlns="http://maven.apache.org/SETTINGS/1.0.0"   
              xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"   
              xsi:schemaLocation="http://maven.apache.org/SETTINGS/1.0.0  
                                  http://maven.apache.org/xsd/settings-1.0.0.xsd">  
        <mirrors>  
            <mirror>  
                <id>alimaven</id>  
                <name>aliyun maven</name>  
                <url>http://maven.aliyun.com/nexus/content/groups/public/</url>  
                <mirrorOf>central</mirrorOf>          
            </mirror>  
            <mirror>      
                <id>ibiblio</id>      
                <mirrorOf>central</mirrorOf>      
                <name>Human Readable Name for this Mirror.</name>      
                <url>http://mirrors.ibiblio.org/pub/mirrors/maven2/</url>      
            </mirror>    
        </mirrors>  
    </settings> 
    [root@t430 ~]# 

    然后注意启动start-dfs.sh之前,要用su hdfs 切换用户到hdfs。否则对应本地目录的所有人是root,可能会有问题。启动完后,切换到gpadmin 启动hawq init cluster。

    最近spark冷了,产品没以前那么火,郁闷。我随笔,不懂问我。

  • 相关阅读:
    Windows Azure 架构指南 – 第 1卷 发布
    SQL Azure 入门教学(一):SQL Azure之初体验
    WPC大会新动态: Windows Azure Platform Appliance发布
    Windows Azure AppFabric 入门教学(七):多播(Multicast)
    PHP on Windows Azure 入门教学系列(一):在Windows Azure内运行PHP应用
    SQL Azure SU3 现已在全球6座数据中心开始启用
    WPC大会新动态:合作伙伴采纳Windows Azure
    时间的运算
    把字符串复制到剪贴板
    常用的表格效果
  • 原文地址:https://www.cnblogs.com/wifi0/p/6696887.html
Copyright © 2020-2023  润新知