学习hadoop目标
安装资料链接: http://pan.baidu.com/s/1bnfkl9H 密码: fmb8
1、掌握Hadoop基本知识,进行Hadoop的HDFS和MapReduce应用开发,搭建Hadoop集群。
2、掌握Hbase基本知识,搭建Hbase集群,Hbase的基本操作
3、掌握数据仓库基本知识,用Hive建立数据仓库,并进行多维分析
一、初识hadoop
hadoop是有两个核心组成。这也就是hadoop作为分布式存储和计算的功能体现。HDFS用来存储文件。mapreduce用来计算。
HDFS主从结构
主节点,只有一个: namenode
从节点,有很多个: datanodes
namenode负责: 接收用户操作请求
维护文件系统的目录结构 管理文件与block之间关系,block与datanode之间关系
datanode负责: 存储文件
文件被分成block存储在磁盘上 为保证数据安全,文件会有多个副本
Mapreduce主从结构
主节点,只有一个: JobTracker 从节点,有很多个: TaskTrackers
JobTracker负责: 接收客户提交的计算任务 把计算任务分给TaskTrackers执行 监控TaskTracker的执行情况
TaskTrackers负责: 执行JobTracker分配的计算任务
sqoop作用
RDBMS和非关系型数据库的转换。
HIVE 是high level interface 支持SQL语句很强大
pig支持一步一步的执行
Hbase处理OLTP在线事务处理应用,特点是低延迟。
mahout 封装了很多的数据挖掘算法。
Jobtacker和namebode就像是两个部门的经理(只有一个)分别管理计算和存储,两个部门分属两个机架。通过交换机连接
tasktracker和databode像是两个部门的多个职员。
下面在介绍hadoop安装之前了解三种网络连接方式
虚拟机的作用是在现有操作系统下,允许安装更多的操作系统,相互之间物理隔离,组成网络,可以更大的发挥计算机的性能。
VirtualBox作为一款免费的虚拟机,非常好用。与之类似的,还有VMWare,这也是一款非常非常好用的虚拟机,操作也非常类似。我们依次为例,讲述VBox下的各种网络连接方式。
为什么要讲这个哪?因为在教学中,发现很多学员对网络知识比较缺乏,对各种网络连接方式哪,知之甚少。现在总结一下,希望来个根本解决。
首先,大家知道一下网络常识:
- 网络中对电脑的访问是通过ip定位的。就好像我们的身份证号,可以唯一辨识一个人。ip是用来区分网络中的电脑的,因此同一网络(准确讲是“网段”)中,ip地址不能相同。如果同一网络中有相同的ip存在,经常发生无法联网或者经常掉线的情况。
- 网络是分段管理的。拿局域网为例,我们通常的网段是192.168.1.xxx。我们的ip地址就是把xxx成1到254的数字。如果多台计算机的ip的前面数字都是192.168.1,那么就叫做属于同一个网段,他们之间是可以互相通信的。如果一台机器的ip是192.168.1.100,另一台机器的ip是192.168.3.100,正常情况下,不能互相通信的(有办法可以搞定,我们不讨论)。所以,在设置虚拟机时要考虑是否同一个网段。
- 怎么知道电脑的ip地址?在windows系统下,在命令行中执行ipconfig;在linux系统下,在命令行中执行ifconfig即可,下文会详述。
- 怎么判断是否与对方能够通信?最简单的方式是执行ping命令。无论是windows还是linux,都可以在命令行中执行“ping 对方ip”
1、host-only 宿主机和客户机单独组网。网段不同。所以不能通信,相对安全。
更改网络中的虚拟机适配器
2、bridge 桥接同一局域网。不安全
3、NAT 宿主机看不到客户机的ip
这种访问模式指的是虚拟机不占用主机所在局域网的ip,通过使用主机的NAT功能访问局域网和互联网,意味着虚拟机可以访问局域网中的其他电脑,但是其他电脑不知道虚拟机的存在。
使用这种模式时,虚拟机不需要设置静态IP,只需要使用DHCP功能自动获取ip即可。
这种模式的好处是可以利用主机的网卡上网,而且不占用更多的ip地址。在ip v4紧张的年代,发明了NAT,因此绝大多数上网都是这种方式。
安装前的软件准备
VitualVox
rhel-server-6.3-i386-dvd.iso
jdk-6u24-linux-xxx.bin
hadoop-1.1.2.tar.gz
安装步骤
关闭防火墙
修改ip
修改hostname
设置ssh自动登录
安装jdk 安装hadoop