Google架构
文/Todd Hoff 译/黄翀
Google是可伸缩性控制方面的王者。Google一直的目标就是构建高性能高伸缩性的基础组织来支持它们的产品。
平台
l Linux
l 开发语言:Python,Java,C++
状态
l 在2006年大约有450,000台廉价服务器
l 在2005年Google索引了80亿Web页面,现在没有人知道数目
l 目前在Google有超过200个GFS集群。一个集群可以有1000或者甚至5000台机器。成千上万的机器从运行着5000000000000000字节存储的GFS集群获取数据,集群总的读写吞吐量可以达到每秒40兆字节
l 目前在Google有6000个MapReduce程序,而且每个月都写成百个新程序
l BigTable伸缩存储几十亿的URL,几百千千兆的卫星图片和几亿用户的参数选择
架构
Google将它们的基础架构形象化为三层架构:
l 产品:搜索,广告,email,地图,视频,聊天,博客
l 分布式系统基础组织:GFS,MapReduce和BigTable
l 计算平台:一群不同的数据中心里的机器
l 确保公司里的人们的部署开销很小
l 在避免丢失日志数据的硬件上花费较多的钱,其他类型的数据则花费较少
可信赖的存储机制GFS(Google File System)
l 可信赖的伸缩性存储是任何程序的核心需求。GFS就是Google的核心存储平台。
l Google File System ——大型分布式结构化日志文件系统,Google在里面存储了大量的数据。
l 为什么构建GFS而不是利用已有的东西?因为可以自己控制一切,况且这个平台与别的不一样,Google需要:
n 跨数据中心的高可靠性
n 成千上万的网络节点的伸缩性
n 大读写带宽的需求
n 支持大块的数据,可能为上千兆字节
n 高效的跨节点操作分发以减少瓶颈
l Master和Chunk服务器:
- Master服务器在不同的数据文件里保持元数据。数据以64MB为单位存储在文件系统中。客户端与Master服务器的交流则可以在文件上进行元数据操作并找到包含用户需要数据的那些Chunk服务器。
- Chunk服务器在硬盘上存储实际数据。每个Chunk服务器跨越3个不同的Chunk服务器备份以创建冗余来避免服务器崩溃。一旦经Master服务器指明,客户端程序就会直接从Chunk服务器读取文件。
l 一个上线的新程序可以使用已有的GFS集群或者可以制作自己的GFS集群。
l 关键点在于有足够的基础组织可以让人们对自己的程序有所选择,GFS可以调整来适应个别程序的需求。
使用MapReduce来处理数据
l 你现在已经有了一个很好的存储系统,那么该怎样处理如此多的数据呢?比如大量TB级的数据存储在1000台机器上。数据库不能伸缩或者伸缩到这种级别花费极大,这就是MapReduce出现的原因。
l MapReduce是一个处理和生成大量数据集的编程模型和相关实现。用户指定一个map方法来处理一个键/值来生成一个中间的键/值,还有一个reduce方法以合并所有关联到同样的中间键的中间值。许多真实世界的任务都可以使用这种模型来表现。以这种风格来写的程序会自动的在一个拥有大量机器的集群里并行运行。运行时系统处理输入数据的划分、程序在机器集之间执行的调度、机器失败处理和必需的内部机器交流等细节。这就允许程序员没有多少并行和分布式系统的经验就可以很容易使用一个大型分布式系统资源。
l 为什么使用MapReduce?
n 跨越大量机器分割任务的好方式。
n 处理机器失败。
n 可以与不同类型的程序工作,例如搜索和广告。几乎任何程序都有map和reduce类型的操作。可以预先计算有用的数据、查询字数统计、对TB的数据排序等等。
l MapReduce系统有三种不同类型的服务器:
n Master服务器分配用户任务到Map和Reduce服务器。它也跟踪任务的状态。
n Map服务器接收用户输入并在其基础上处理map操作。结果写入中间文件。
n Reduce服务器接收Map服务器产生的中间文件并在其基础上处理reduce操作。
l 例如,你想统计在所有Web页面里的字数。你应该将存储在GFS里的所有页面抛入MapReduce。所有的调整、工作调度、失败处理和数据传输将在成千上万台机器上同时进行并且自动完成。
n 步骤类似于:GFS -> Map -> Shuffle -> Reduction -> Store Results back into GFS。
n 在MapReduce里一个map操作将一些数据映射到另一个中,产生一个键值对,在我们的例子里就是字和字数。
n Shuffling操作聚集键类型。
n Reduction操作计算所有键值对的综合并产生最终的结果。
l Google索引操作管道有大约20个不同的map和reduction。
l 程序可以非常小,如20到50行代码。
l 一个问题可能是掉队者,就是是一个比其他程序慢的计算,阻塞了其他程序。掉队者可能因为缓慢的IO或者临时的CPU不能使用而发生。解决方案是运行多个同样的计算并且当一个完成后杀死所有其他的。
l 数据在Map和Reduce服务器之间传输时被压缩了。这可以节省带宽和I/O。
在BigTable里存储结构化数据
l BigTable是一个大伸缩性、容错的、自管理系统,包含千千兆的内存和1000000000000000的存储。它可以每秒钟处理百万数量级的读写操作。
l BigTable是一个构建于GFS之上的分布式Hash机制,但不是关系型数据库,不支持join或者SQL类型查询。
l 提供查询机制通过键访问结构化数据。GFS存储存储不透明的数据,而许多程序需求有结构化数据。
l 商业数据库不能达到这种级别的伸缩性,并且不能在成千上万台机器上工作。
l 通过控制自己的低级存储系统,Google得到更多的控制权来改进它们的系统。例如,如果想让跨数据中心的操作更简单这个特性,就可以内建它。
l 可以自由的增删系统运行时机器,而整个系统可以保持正常工作。
l 每个数据条目存储在一个格子里,可以通过一个行key和列key或者时间戳来访问。
l 每一行存储在一个或多个tablet中。一个tablet是一个64KB块的数据序列并且格式为SSTable。
l BigTable有三种类型的服务器:
n Master服务器分配tablet服务器,它跟踪tablet在哪里并且如果需要则重新分配任务
n Tablet服务器为tablet处理读写请求。当tablet超过大小限制(通常是100MB-200MB)时它们拆开tablet。当一个Tablet服务器失败时,则100个Tablet服务器各自挑选一个新的tablet然后系统恢复。
n Lock服务器形成一个分布式锁服务。像打开一个tablet来写、Master调整和访问控制检查等都需要互斥。
l 一个locality组可以将物理上将相关的数据存储在一起以便得到更好的locality选择。
l tablet尽可能的缓存在RAM里。
硬件
l 当你有很多机器时,你怎样组织它们来达到成本的有效利用,并发挥最大效力?
l 使用非常廉价的硬件。
l 使用不可靠的(failure-prone)架构方式,而不是在高度可靠的组件上搭建基础架构,你可以获得1000倍计算能力的提升,而成本却降低了33倍。你必须在不可靠性之上来构建可靠性,以使得这个策略可以起作用。
l Linux系统,采取内部机架放置的设计方式,使用PC主板,低端存储。
l 基于性能来评估能源消耗不是好的方式,会遇到严重的电力和制冷方面的问题。
l 混合使用服务器,并使用他们自己的数据中心。
其他
l 迅速更改而不是等待QA。
l 库是构建程序的卓越方式。
l 一些程序作为服务提供。
l 通过一个基础组织处理程序的版本,这样可以自由发布而不用害怕会破坏什么东西。
Google将来的方向
l 支持地理位置分布的集群。
l 为所有数据创建一个单独的全局名字空间,将当前的数据从集群分离。
l 更多和更好的自动化数据迁移和计算。
l 解决使用网络划分做广阔区域的备份时的一致性问题(例如保持服务,即使有一个集群离线维护或存在一些损耗问题)。
经验教训
l 基础组织具有竞争性的优势,特别是对Google而言。Google可以很快很廉价的推出新服务,并且具有其他人很难达到伸缩性。许多公司采取完全不同的方式。他们认为基础组织开销太大。Google认为自己是一个系统工程公司,这是一个新的看待软件构建的方式。
l 跨越多个数据中心仍然是一个未解决的问题。大部分网站都是一个或者最多两个数据中心。我们不得不承认怎样在一些数据中心之间完整的分布网站是很需要技巧的。
l 如果你自己没有时间从零开始重新构建所有这些基础组织,你可以看看Hadoop。Hadoop是这里很多主意的一个开源实现。
l 平台的一个优点是初级开发人员可以在平台的基础上快速并且放心的创建健全的程序。如果每个项目都需要发明同样的分布式基础组织的轮子,那么你将陷入困境。因为知道怎样完成这项工作的人相对较少。
l 协同工作不一直是掷骰子。通过让系统中的所有部分一起工作,则一个部分的改进将帮助所有的部分。改进文件系统,则每个人从中受益并且是透明的。如果每个项目使用不同的文件系统,则在整个堆栈中享受不到持续增加的改进。
l 构建自管理系统让你没必要让系统关机。这允许你更容易在服务器之间平衡资源,动态添加更大的容量,让机器离线和优雅的处理升级。
l 创建可进化的基础组织,并行的执行消耗时间的操作并采取较好的方案。
l 不要忽略大学等研究教学机构。那里有许多没有转变为产品的好主意。绝大部分Google所实现的领先技术,其实并不是多么宏大且超前的设计。
l 考虑压缩——当你有许多CPU而IO有限时,压缩是一个好的选择。
来源自:http://book.csdn.net/bookfiles/569/10056918763.shtml