hadoop伪分布式安装

hadoop伪分布式安装
　　1.先下载hadoop包，这里使用hadoop-2.7.3.tar.gz

　　2.配置hadoop环境变量：修改/etc/profile文件：vi /etc/profile
   　　 HADOOP_HOME=/soft/hadoop
   　　PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
   　　 export HADOOP_HOME PATH

　　3. source /etc/profile让其生效

　　4.新建3个文件夹，用来存放hadoop操作时的数据等内容
   　　此处新建 /hadoop/tmp /hadoop/dfs/data /hadoop/dfs/name

　　5.配置core-site.xml（位置hadoop/etc/hadoop/core-site.xml）：
```
　　　<configuration>
        　　<property>
          　　<name>fs.defaultFS</name>
         　　 <value>hdfs://192.168.72.100:9000</value>
        　　</property>
        　　<property>
        　　  <name>hadoop.tmp.dir</name>
          　　<value>/hadoop/tmp</value>
        　　</property>
    　</configuration>
```
　
　　6.配置hdfs-site.xml(和core-site.xml位于同一目录)
　　
```
<configuration>
        　　<property>
         　　 <name>dfs.namenode.name.dir</name>
         　　 <value>/hadoop/dfs/name</value>
        　　</property>
     　　   <property>
       　　   <name>dfs.datanode.data.dir</name>
         　　 <value>/hadoop/dfs/data</value>
       　　 </property>
     　　   <property>
         　　 <name>dfs.replication</name>
        　　  <value>1</value>
      　　  </property>
       　　 <property>
      　　    <name>dfs.permissions.enabled</name>
      　　    <value>false</value>
      　　  </property>
    　　</configuration>
```
  　　 (这里使用了第四步创建的文件夹)

　　7. 使用命令对namenode进行格式化：hdfs namenode -format

　　8.启动hadoop：在hadoop的sbin目录下执行：./start-all.sh ./stop-all.sh

　　9.使用jps查看hadoop进程是否启动
　　

　　10.这时候我们访问ip：50070端口，如果可以成功验证说明hdfs配置没有问题

　　11.我们使用hdfs dfs -mkdir 文件夹命令来创建文件夹，hdfs中的好多操作和linux 系统中很相　　似，创建成功以后可以在utilities中看到我们创建的文件夹

　　12.在系统中创建一个文件，写入一些内容

　　13.hdfs dfs -put 文件文件夹将文件放到hdfs中
　　至此，hadoop伪分布式安装完成。

　　14.发现hdfs启动不成功，并提示 JAVA_HOME is not set and could not be found
　　那么需要在hadoop配置jdk环境变量：
   　　在hadoop/etc/hadoop-env.sh 中输入export JAVA_HOME=/soft/jdk

　　15.重新format namenode后，datanode无法正常启动
   　　执行hdfs namenode -format后，current目录会删除并重新生成，其中VERSION文件中的　　　　clusterID也会随之变化，而datanode的VERSION文件中的clusterID保持不变，造成两个　　　　clusterID不一致。

　　所以为了避免这种情况，可以再执行的namenode格式化之后，删除datanode的current文件夹，　　或者修改datanode的VERSION文件中出clusterID与namenode的VERSION文件中的clusterID一　　样，然后重新启动datanode。
相关阅读:
使用poi读取excel文件 Cannot get a text value from a numeric cell
异步往数据库中插入每个用户的增删改操作日志
 mybatis where in语句中参数过多
 使用泛型实现对int数组或者String数组进行排序
 读取hdfs目录，并在web页面上展示文件里的内容
 java使用优先级队列实现哈夫曼编码
 使用JavaScript动态的绑定、解绑 a 标签的onclick事件，防止重复点击
 git概念和操作流程
 新的学习路径、学习想法和思路的头脑风暴：基于泰迪云课程，对数据分析和数据建模，机器学习算法进行统筹，接着是基于大数据的数据挖掘、进度、
RSA加密算法流程，公钥加密，私钥解密
原文地址：https://www.cnblogs.com/qingtianxt/p/9305789.html

最新文章
Vue常用属性功能
 Vue之常用指令
 Vue简介
 BBS项目之表设计
 auth模块
 importlib模块使用
 django中间件
 码云git命令
 nginx配置
 字体不对齐解决