hadoop深入了解（一）

hadoop深入了解（一）
学习hadoop目标

安装资料链接: http://pan.baidu.com/s/1bnfkl9H 密码: fmb8

1、掌握Hadoop基本知识，进行Hadoop的HDFS和MapReduce应用开发，搭建Hadoop集群。

2、掌握Hbase基本知识，搭建Hbase集群，Hbase的基本操作

3、掌握数据仓库基本知识，用Hive建立数据仓库，并进行多维分析

一、初识hadoop

hadoop是有两个核心组成。这也就是hadoop作为分布式存储和计算的功能体现。HDFS用来存储文件。mapreduce用来计算。

HDFS主从结构

主节点，只有一个: namenode

从节点，有很多个: datanodes

namenode负责：接收用户操作请求

　　　　　　　　维护文件系统的目录结构管理文件与block之间关系，block与datanode之间关系

datanode负责：存储文件

　　　　　　　　文件被分成block存储在磁盘上为保证数据安全，文件会有多个副本

Mapreduce主从结构

主节点，只有一个: JobTracker 从节点，有很多个: TaskTrackers

JobTracker负责：接收客户提交的计算任务把计算任务分给TaskTrackers执行监控TaskTracker的执行情况

TaskTrackers负责：执行JobTracker分配的计算任务

sqoop作用

RDBMS和非关系型数据库的转换。

HIVE 是high level interface 支持SQL语句很强大

pig支持一步一步的执行

Hbase处理OLTP在线事务处理应用，特点是低延迟。

mahout 封装了很多的数据挖掘算法。

Jobtacker和namebode就像是两个部门的经理（只有一个）分别管理计算和存储，两个部门分属两个机架。通过交换机连接

tasktracker和databode像是两个部门的多个职员。

下面在介绍hadoop安装之前了解三种网络连接方式

虚拟机的作用是在现有操作系统下，允许安装更多的操作系统，相互之间物理隔离，组成网络，可以更大的发挥计算机的性能。

VirtualBox作为一款免费的虚拟机，非常好用。与之类似的，还有VMWare，这也是一款非常非常好用的虚拟机，操作也非常类似。我们依次为例，讲述VBox下的各种网络连接方式。

为什么要讲这个哪？因为在教学中，发现很多学员对网络知识比较缺乏，对各种网络连接方式哪，知之甚少。现在总结一下，希望来个根本解决。

首先，大家知道一下网络常识：
- 网络中对电脑的访问是通过ip定位的。就好像我们的身份证号，可以唯一辨识一个人。ip是用来区分网络中的电脑的，因此同一网络(准确讲是“网段”)中，ip地址不能相同。如果同一网络中有相同的ip存在，经常发生无法联网或者经常掉线的情况。
- 网络是分段管理的。拿局域网为例，我们通常的网段是192.168.1.xxx。我们的ip地址就是把xxx成1到254的数字。如果多台计算机的ip的前面数字都是192.168.1，那么就叫做属于同一个网段，他们之间是可以互相通信的。如果一台机器的ip是192.168.1.100，另一台机器的ip是192.168.3.100，正常情况下，不能互相通信的(有办法可以搞定，我们不讨论)。所以，在设置虚拟机时要考虑是否同一个网段。
- 怎么知道电脑的ip地址？在windows系统下，在命令行中执行ipconfig；在linux系统下，在命令行中执行ifconfig即可，下文会详述。
- 怎么判断是否与对方能够通信？最简单的方式是执行ping命令。无论是windows还是linux，都可以在命令行中执行“ping 对方ip”
　　1、host-only 宿主机和客户机单独组网。网段不同。所以不能通信，相对安全。

更改网络中的虚拟机适配器

　　2、bridge 桥接同一局域网。不安全

3、NAT 宿主机看不到客户机的ip

这种访问模式指的是虚拟机不占用主机所在局域网的ip，通过使用主机的NAT功能访问局域网和互联网，意味着虚拟机可以访问局域网中的其他电脑，但是其他电脑不知道虚拟机的存在。

使用这种模式时，虚拟机不需要设置静态IP，只需要使用DHCP功能自动获取ip即可。

这种模式的好处是可以利用主机的网卡上网，而且不占用更多的ip地址。在ip v4紧张的年代，发明了NAT，因此绝大多数上网都是这种方式。

安装前的软件准备

VitualVox

rhel-server-6.3-i386-dvd.iso

jdk-6u24-linux-xxx.bin

hadoop-1.1.2.tar.gz

安装步骤

关闭防火墙

修改ip

修改hostname

设置ssh自动登录

安装jdk 安装hadoop
相关阅读:
Hadoop集群VSFTP和SecureCRT安装配置
 Hadoop集群完全分布式坏境搭建
 Hadoop集群坏境搭建配置
 Hadoop集群坏境CentOS安装
 Pr视频剪辑基础技巧学习
 SAN和NAS之间的基本区别
 原始容量、可用容量和有效容量的区别
 解释一下什么是网盘与云盘
 纠错技术之FEC（向前纠错）
分布式存储的冗余类型（N+2：1）
原文地址：https://www.cnblogs.com/dandandeyoushangnan/p/4698561.html