centos7.2 64位 hadoop2.7.3 安装 hawq 2.10 随笔啊随笔而已。

centos7.2 64位 hadoop2.7.3 安装 hawq 2.10 随笔啊随笔而已。
在谷歌趋势上看，spark全球火，而hawq除了中国其他地方也比较火，尤其德国芬兰hawq火。有意思的是hawq的开发团队的老大是华人，是北京某著名大学的08届博士！团队也有好多华人

hive的感觉很呆板，spark天马行空但吃内存并发底。pgsql-->greenplum-->hawq，一路走来，hawq算是够了。hawq的缺点是开发麻烦，CPP语言么！spark用scala语言，代码量少，开发快。

hawq是计算存储分离，使用p2p udp快速传输数据。而spark计算和存储一体，RDD尽量放入内存，占用内存大。

还有，hawq应该不用mapred模型，所以这个实验你不配置mapred也没关系了。

我单节点装了hawq，从源代码编译。到20170411:22:17:13:452250 hawq_init:t430:gpadmin-[INFO]:-Init HAWQ cluster successfully
做个笔记。有同行用到了，最好不过。

主要安装资料

Apache Hadoop 2.7.3 – Hadoop: Setting up a Single Node Cluster.

https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

但节点安装hadoop,而非local模式.。hadoop应该放在/home下，而非用户目录下，更不应该是/root下。否则很麻烦

因为hawq资源管理配置文件里可以用no，而非yarn，所以yarn可以不装。no表示用hawq自己的资源管理框架。

https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=61320026 这是apache社区的资料。英文。

https://mp.weixin.qq.com/s?__biz=MzAwMzcyMzEyOQ==&mid=2656640507&idx=1&sn=5c4c48d1aa082374ac59adf0ea51a648&pass_ticket=SMMJxi09RPEUiBXeCWsaJyIycUFKmjbaEQNm1IjphVzh5mvtC3ODZpWPI2skvTOp

这是hawq中文的weixin号的文章。

编译完后，hawq被装在/usr/local/hawq下。要求gpadmin对hawq/etc有完全权限。我设owner是gpadmin，然后目录和文件权限777了。

然后hawq init cluster是以gpadmin身份执行的。

下面把配置文件贴下。
```
[root@t430 hadoop]# cat bash_profile 
export base1=/home
export JAVA_HOME="$base1/hadoop/jdk1.8.0_111"
export SCALA_HOME="$base1/hadoop/scala-2.11.8"
export HADOOP_HOME="$base1/hadoop/hadoop-2.7.3"
export SPARK_HOME="$base1/hadoop/spark-2.1.0-bin-hadoop2.7"
export PATH="$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SPARK_HOME/bin:$PATH"
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

[root@t430 hadoop]# 
```
配置文件中spark和scala是另一个里面的，您不需要这两项。

注意,hawq中hdfs 端口认8020,而hadoop2.7.3默认是9000。这个我们改hadoop这边的。

涉及到环境变量自动设置的问题。每次登陆都执行一次source bash_profile不应该吧。可以cat bash_profile>>~/.bashrc ,就是把环境变量内容追加到.bashrc中，用户登陆时会自动初始化。建议把/usr/local/hawq/gree*.sh也追加到bashrc中。

编译hawq要下载很多东西。

make -j8 这个命令有用，虽然名字起的很随意。要用的。用的时候下载了一堆java的东西，又慢，所以配置了maven的aliyun镜像，简直快。
[root@t430 ~]# cat ~/.m2/settings.xml <?xml version="1.0" encoding="UTF-8"?> <settings xmlns="http://maven.apache.org/SETTINGS/1.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/SETTINGS/1.0.0 http://maven.apache.org/xsd/settings-1.0.0.xsd"> <mirrors> <mirror> <id>alimaven</id> <name>aliyun maven</name> <url>http://maven.aliyun.com/nexus/content/groups/public/</url> <mirrorOf>central</mirrorOf> </mirror> <mirror> <id>ibiblio</id> <mirrorOf>central</mirrorOf> <name>Human Readable Name for this Mirror.</name> <url>http://mirrors.ibiblio.org/pub/mirrors/maven2/</url> </mirror> </mirrors> </settings> [root@t430 ~]#
然后注意启动start-dfs.sh之前，要用su hdfs 切换用户到hdfs。否则对应本地目录的所有人是root，可能会有问题。启动完后，切换到gpadmin 启动hawq init cluster。

最近spark冷了，产品没以前那么火，郁闷。我随笔，不懂问我。
相关阅读:
Windows Azure 架构指南 – 第 1卷发布
 SQL Azure 入门教学（一）：SQL Azure之初体验
 WPC大会新动态: Windows Azure Platform Appliance发布
 Windows Azure AppFabric 入门教学（七）：多播（Multicast）
PHP on Windows Azure 入门教学系列（一）：在Windows Azure内运行PHP应用
 SQL Azure SU3 现已在全球6座数据中心开始启用
 WPC大会新动态：合作伙伴采纳Windows Azure
时间的运算
 把字符串复制到剪贴板
 常用的表格效果
原文地址：https://www.cnblogs.com/wifi0/p/6696887.html