云计算与信息安全
第二讲
Google文件系统(GFS)
SDN软件定义网络,主从式的,由服务器决定的。
注意:亚马逊是P2P的,不是主从式的。
两位Google创始人,拉里-佩奇 和 谢尔盖-布林。
Google文件系统是分布式文件系统。
Verizon用48亿美元收购了第一个搜索,这个搜索叫做雅虎。
对于一个文件系统,我们最关心什么呢?关心安全性、文件读写的效率(速度快)、容错性(稳定性,需要对文件进行多于一个的备份)、文件操作性能、文件操作的一致性。
一、GFS的系统架构
主从式的。
用户和Master之间交换的是控制流(信息流),不是大段的数据,是短报文的形式。TCP的三次握手协议也是短报文的形式。
主:GFS主服务器文件命名空间;
从:GFS chuck server,Linux文件系统。
元数据:meta data
数据服务器:chunk server
需要默认有三个以上的备份数据
主服务器(Master server)要求有两个,互为备份。
GFS整体是三个部分:客户端、主服务器 、数据服务器。
client(客户端)和Mater之间只有控制流,没有数据流,大大降低了Master的负载。
client和Chunk Server之间直接传输数据流,同时由于文件被分为多个Chunk进行分布式存储,使得整个系统的I/O高度并行,系统整体性能得到提高。
GFS的特点:
一、采用中心服务器模式
可以方便增加Chunk server
仿版进行负载均衡
二、不缓存数据
文件操作大部分是流式读写,不存在大量重复读写,使用Cache对性能提高不大。
三、在用户态下实现
POSIX接口
四、只提供专用接口
二、容错机制
一、Master容错
Mater保存了三种元数据:命名空间、Chunk和文件名的映射表、Chunk副本的位置信息。
二、Master Server容错
ACID:原子性、一致性、隔离性和持久性,简称事务的ACID特性。
副本出现版本冲突,怎么解决?答:通过投票选择票数高的即可。
注意:后面的课程会讲解亚马逊文件系统,并和谷歌文件系统进行比较。
三、系统管理技术
系统观念里技术有四个:大规模集群安装技术、故障检测技术、节点动态加入技术、节能技术。
分布式数据处理MapReduce
产生背景
并行编程模式最早是在1995年提出。
编程模型
参考链接:https://blog.csdn.net/yangquanhui1991/article/details/47732593
https://www.cnblogs.com/zhangyinhua/p/7712773.html