hadoop

基于谷歌的论文

GFS ----hdfs

MAP-Reduce

做的实现 Hadoop 解决的问题如何存储及分析

Bigtable ---Hbase(列式数据库) PB级别

具体应用网盘基于 hdfs

一、HDFS优点

高容错性 1.数据自动保存多个副本（随机存放）2.副本丢失后，自动恢复

适合批处理

适合大数据处理 1.GB,TB,PB 2.10K节点 3.百万规模以上的文件数据

二、缺点

不适合小文件例如几M，因为先要寻址占用时间较长

不支持修改内容（因为一个文件有多个副本，文件大小变化，切分规则也会变化）

支持append (生产中一般不用)

元数据信息--NameNode（文件的一些属性信息存在内存中）占用150b左右

数据存放在DataNode（至少三台）

HDFS数据存储单元（block）文件被切分成固定的数据块默认64M

默认每个block默认都有三个副本，block 大小不可更改，个数可以更改

NameNode 只有一个是active

接受客户端的读写服务

元数据信息包括

1.文件的权限信息

2.文件包含哪些BLOCK

3.BLOCK 保存在哪个DataNode

（元数据持久化叫）fsimage 持久化包括1,2

edits记录包括操作日志

SeconddaryNameNode （1.X， 2.x没做高可用的时候有) 主要工作合并fsimage和edits，减少NameNode启动时间

SeconddaryNameNode 只能备份一部分NameNode信息

触发合并

1在配置文件中配置，默认3600秒

2edits 达到64M

启动DataNode时会自动想NameNode汇报block信息

通过向NameNode发送心跳（3秒一次），如果10分钟没有收到，会copy其上的block到其他DN

相关阅读:
java中的数组与集合的排序摘抄自:http://blog.csdn.net/jonathan_q_bo/archive/2005/11/29/539043.aspx
JSF开发
二维数组排序
java properties
HashMap按key排序
Properties 类的使用
鸟哥linux的简单sh程序设计http://blog.chinaunix.net/u/22249/showart.php?id=149846
JSF中文教程
JSF技术介绍
关于Apache不能解析html内容

原文地址：https://www.cnblogs.com/jentary/p/9260959.html