客户端Linux - 润新知

客户端Linux
1、Hadoop几种运行模式？
Hadoop的运行模式包括：本地模式，伪分布模式，完全分布模式
本地模式：不需要任何集群配置，是在单节点上部署，仅限于调试。
伪分布模式：这种模式需要在单独的节点上进行相应的分布式设置，各个组件各自占用进程，模拟分布式各个节点。
完全分布模式：需要在多台主机上进行分布式的设置，要求主机之间能互相通信，各个组件分别部署在独立的主机上，真正的实现多节点部署。

2、SCP命令使用
scp -r 路径 user@hostname:路径
或
scp -r user1@hostname1：路径 user2@hostname2：路径

3、rsync命令使用
rsycn [-av] 路径 user@hostname:路径

或
rsycn [-av] user1@hostname1：路径 user2@hostname2：路径

4、rsyncSCP不同
（1）用rsync做文件的复制要比scp速度快
（2）rsync会对两端的文件做对比，有差异的文件会被复制过去，完全相同的会被跳过
（3）scp不做对比，直接复制，同名的文件会直接覆盖。

5、DataNode和NameNode进程同时只能工作一个，排查方案。
（1）NameNode在format初始化后会生成clusterId
（2）DataNode在启动后也会生成和NameNode一样的clusterId
（3）再次格式化NameNode，生成新的clusterId，与未删除的DataNode的clusterid不一致
（4）解决方法：格式化之前，先删除DataNode里面的信息，默认在/tmp下。

文件上传：copyFromLocalFile()

文件下载：copyToLocalFile()

写入数据流程：
1. 客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。
2. NameNode返回是否可以上传。
3. 客户端请求第一个 Block上传到哪几个DataNode服务器上
4. NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。
5. 客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
6. dn1、dn2、dn3逐级应答客户端。
7. 客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。
8. 当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器
读取数据流程：
1. 客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。
3. 挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。
5. DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。
7. 客户端以Packet为单位接收，先在本地缓存，然后写入目标文件。
1、What is HDFS？

HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。
2、HDFS优劣势

优点：

1）高容错性

　　（1）数据自动保存多个副本。它通过增加副本的形式，提高容错性。

　　（2）某一个副本丢失以后，它可以自动恢复。

2）适合处理大数据

　　（1）数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据；

　　（2）文件规模：能够处理百万规模以上的文件数量，数量相当之大。

3）可构建在廉价机器上，通过多副本机制，提高可靠性。

缺点：

1）不适合低延时数据访问，比如毫秒级的存储数据，是做不到的。

2）无法高效的对大量小文件进行存储。

　　（1）存储大量小文件的话，它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的，因为NameNode的内存总是有限的；

　　（2）小文件存储的寻址时间会超过读取时间，它违反了HDFS的设计目标。

3）不支持并发写入、文件随机修改

　　（1）一个文件只能有一个写，不允许多个线程同时写；

　　（2）仅支持数据append（追加），不支持文件的随机修改。

3、Namenode主要职责

NameNode（nn）：就是Master，它是一个主管、管理者。

（1）管理HDFS的名称空间；

（2）配置副本策略；

（3）管理数据块（Block）映射信息；

（4）处理客户端读写请求。

4、DataNode主要职责

DataNode：就是Slave。NameNode下达命令，DataNode执行实际的操作。

（1）存储实际的数据块；

（2）执行数据块的读/写操作。
5、HDFS默认文件块大小及原因。

HDFS中的文件在物理上是分块存储（Block），块的大小可以通过配置参数来规定，默认大小在Hadoop2.x版本中是128M，老版本中是64M。

原因：目前磁盘的传输速率普遍为100MB/s，寻址时间为传输时间的1%时，为最佳状态。寻址时间一般为10ms，传输时间=10ms/0.01=1s，block大小=1s*100MB/s=100MB，所以最佳的block大小为100MB，设定block大小为128MB传输为二进制时比较方便，而且也不会占用整个块的空间
相关阅读:
m113
无题
 m102 SE赛
 m101 真*sb($huge 全场最瞎$)
m100 的坑
 m99 然而并没有想出来标题！
m98 lsc rp-- 赛
 csps2019AFO祭
 csps考前的一些总结(然而可能并没有用)
低错总结
原文地址：https://www.cnblogs.com/liang1013/p/13965426.html