Linux操作HDFS集群常用命令

Linux操作HDFS集群常用命令
命令行语句：
- vi .bashrc
- source .bashrc
- ssh-keygen -t rsa
集群命令
- hdfs dfs -mkdir /data
- hdfs dfs -ls /
- hdfs dfs -put 本地文件 hdfs集群上的目录
- hdfs dfs -ls -R hdfs集群上文件目录
yarn集群上传文件
- yarn jar **.jar wordcount
reboot重启

hdfs --daemon start namenode

hdfs --daemon start datanode

hdfs --daemon stop namenode

hdfs --daemon stop datanode

yarn --daemon start resourcemanager

yarn --daemon start nodemanager

搭装集群

1、修改主机名

　　sudo vi /etc/hostname

　　重启虚拟机才会生效

2、修改主机-IP映射

　　sudo vi /etc/hosts

3、修改Hadoop的配置文件

　　//将IP地址修改为集群主节点的主机名

　　[vi] core-site.xml

　　[vi] yarn-site.xml

　　[vi] workers

　　启动hdfs集群：一个namenode N个datanode

　　　　start-dfs.sh

　　产生密匙：ssh-keygen -t rsa

　　将id_rsa中的内容拷贝到suthorized_keys中:

　　　　cd ~/.ssh

　　　　cat id_rsa.pub >> authorized_keys //追加id_rsa.pub到authorized_keys中

　　scp ~/.ssh/id_rsa.pub briup@manager:~ //

　　scp briup@manager:~/.ssh/id_rsa.pub ~ //

　　cat ~/id_rsa.pub >> ~/.ssh/authorized_keys //追加id_rsa.pub到authorized_keys中

4、删除Hadoop存储临时文件的目录

　　rm -r /data

5、格式化namenode

　　hadoop namenode -format

6、从主节点启动NameNode进程

　　hdfs --daemon start namenode

7、从节点启动DataNode进程

　　hdfs --daemon start datanode

8、访问hdfs页面，查看hdfs集群的从节点是否挂载成功

　　http://主节点:9870

9、主节点启动

　　yarn --daemon start resourcemanager

10、从节点启动nodemanager进程

　　yarn --daemon start nodemanager

数据 ---》磁盘

　　磁盘地址

　　计算机组成：kernel+shell+文件系统+应用

（分布式）文件系统借助网络编程

　　将磁盘地址映射为一个文件路径

　　D:/briup/a.txt

　　一个文件切分为多个块文件，每个块存储在不同的数据节点datanode中。多个路径

　　

用户只需要根据文件路径，就可以操作文件

hdfs fsck / -files -blocks -locations
相关阅读:
《C#微信开发系列（2）-自定义菜单管理》
《C#微信开发系列（1）-启用开发者模式》
python多进程： multiprocessing Pool 和tqdm
前端
 python 缓存
 python pymysql
python paramiko模块
 Linux之TCPIP内核参数优化
 python进程、线程、协程、IO多路复用
 python socket
原文地址：https://www.cnblogs.com/qiangang/p/13665710.html