伪分布式环境搭建
1 下载解压配置hadoop hadoop-env.sh export JAVA_HOME=/opt/JDK/jdk1.8.0_45
hdfs-site.xml <configuration> <property> <name>dfs.data.dir</name> <value>/hadoop/data</value> </property>
<!--这个是配置备份数,默认是3,但是因为是伪分布式的单机环境,所以一份就够了-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration> mapred-site.xml <configuration> <property> <name>mapred.job.tracker</name> <value>sherry:9001</value> </property> </configuration> core-site.xml <configuration> <property> <name>hadoop.tmp.dir</name> <value>/hadoop</value> </property> <property> <name>dfs.name.dir</name> <value>/hadoop/name</value> </property> <property> <name>fs.default.name</name> <value>hdfs://sherry:9000</value> </property> </configuration> vi /etc/profile export HADOOP_HOME=/opt/hadoop-1.2.1 export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH source /etc/profile 生效 2 安装配置ssh apt-get install openssh-server ssh-keygen -t dsa -P '' 执行完该指令后,在/root/.ssh目录下会出现两个文件:id_dsa和id_dsa.pub文件; cat ./id_dsa.pub >> authorized_keys; 如果 ssh localhost 能够正常访问,就说嘛ssh配置ok 格式化hadoop hadoop namenode -format 启动hadoop start-all.sh 查看是否启动成功 jps 7026 SecondaryNameNode6706 NameNode7476 Jps7125 JobTracker6859 DataNode7291 TaskTracker 出现上述节点,就说明启动成功 Warning: $HADOOP_HOME is deprecated的解决办法 在当前用户home/.bash_profile里增加一个环境变量: export HADOOP_HOME_WARN_SUPPRESS=1 注:修改完.bash_profile后需要执行source操作使其生效
分布式集群环境的搭建
1 每台机器上创建相同的用户(必须)
2 设置 /etc/hosts (ip与机器名关系) /etc/hostname(主机名)
3 配置每台机器的Hadoop配置文件(与伪分布式类似)
4 slaves与masters文件的配置。指定DataNode与NameNode的机器名