HDFS - 润新知

HDFS

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

HDFS有着高容错性（fault-tolerant）的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以实现流的形式访问（streaming access）文件系统中的数据。

HDFS：源自于Google的GFS论文，发表于2003年10月，HDFS是GFS克隆版。Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。

HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。

Client：切分文件；访问HDFS；与NameNode交互，获取文件位置信息；与DataNode交互，读取和写入数据。

NameNode：Master节点，在hadoop1.X中只有一个，管理HDFS的名称空间和数据块映射信息，配置副本策略，处理客户端请求。

DataNode：Slave节点，存储实际的数据，汇报存储信息给NameNode。

Secondary NameNode：辅助NameNode，分担其工作量；定期合并fsimage和fsedits，推送给NameNode；紧急情况下，可辅助恢复NameNode，但Secondary NameNode并非NameNode的热备。
相关阅读:
使用comet架构实现了一个基于网页的视频监控prototype！！！！哇哈哈庆祝一下
 Pixysoft.Framework.Noebe.Datamining 数据挖掘开发实录
 论创业成功！让大家的青春充满着无限美好的回忆
 新年第一篇数据库备份恢复系统上线的挫折
 .Net FrameWork 4.0中使用EF向数据库插入数据报datatime2类型错误的解决办法
 RoRoWoBlog 开源博客系统介绍
 第一次偶然出现的“System.Data.Entity.dll”类型的异常
 序列化类型 System.Data.Entity.DynamicProxies 的对象时检测到循环引用
 我也来说说Entity Frame Work 4中的数据库优先和代码优先两种方式(2)
Asp.net MVC 2 + Castle + NHibernate 项目实战(1)
原文地址：https://www.cnblogs.com/022414ls/p/14207045.html