前面两篇介绍了一下tajo,下面就说一下安装和使用吧。
一、分布式安装
前提:hadoop2中的hdfs和yarn已经安装并运行正常。
1、下载source并build源码
$git clone https://git-wip-us.apache.org/repos/asf/incubator-tajo.git tajo $ cd tajo $ mvn clean package -DskipTests -Pdist -Dtar $ ls tajo-dist/target/tajo-x.y.z-SNAPSHOT.tar.gz
2、将tag.gz解压到需要安装的地方
1 $ tar xzvf tajo-0.2.0-SNAPSHOT.tar.gz
3、配置tajo-site.xml
1 <property> 2 3 <name>tajo.rootdir</name> 4 5 <value>hdfs://hostname:9000/tajo</value> 6 7 </property> 8 9 <property> 10 11 <name>tajo.worker.tmpdir.locations</name> 12 13 <value>/home/ds/clouderaCDH/tajoTmp</value> 14 15 </property> 16 17 <property> 18 19 <name>tajo.master.umbilical-rpc.address</name> 20 21 <value>hostname:26001</value> 22 23 </property> 24 25 26 27 <property> 28 29 <name>tajo.catalog.client-rpc.address</name> 30 31 <value>hostname:26005</value> 32 33 </property> 34 35 <property> 36 37 <name>tajo.master.client-rpc.address</name> 38 39 <value>hostname:26002</value> 40 41 </property> 42 43 <property> 44 45 <name>tajo.worker.parallel-execution.max-num</name> 46 47 <value>12</value> 48 49 </property>
4、 配置tag-env.sh
# Hadoop home. Required export HADOOP_HOME=/home/ds/clouderaCDH/hadoop-2.0.0-cdh4.2.1 # The java implementation to use. Required. export JAVA_HOME=/usr/lib/jvm/java-6-sun # The maximum amount of heap to use, in MB. Default is 1000. export TAJO_MASTER_HEAPSIZE=4000 # The maximum amount of heap to use, in MB. Default is 1000. export TAJO_WORKER_HEAPSIZE=8000
5、 配置workers文件
worker01
worker02
6、 将配置好的tajo同步到其他节点并启动
scp -r tajo02 worker01:/home/ds/clouderaCDH/ bin/start-tajo.sh
7、 查看进程是否启动
jps 24019 TajoMaster 23451 TajoWorker
二、SQL交互
创建表
1、 从hdfs上得csv文件创建外部表
test文件夹下放一个data.csv文件,内容:
1|abc|1.1|a 2|def|2.3|b 3|ghi|3.4|c 4|jkl|4.5|d 5|mno|5.6|e
创建表并load数据
create external table table1 (id int, name text, score float, type text) using csv with ('csvfile.delimiter'='|') location 'hdfs://hostname:9000/tajo/warehouse/test’
查询交互
支持绝大部分的SQL92。
1、使用limit查询
$ select * from table1 limit 2; id, name, score, type ------------------------------- 1, abc, 1.1, a 2, def, 2.3, b
三、参考资料
[1] http://wiki.apache.org/tajo
[2] http://tajo.incubator.apache.org/
[3] https://issues.apache.org/jira/browse/TAJO