作者:朱金灿
来源:http://blog.csdn.net/clever101
一个分布式计算系统的硬件应该如何配置?个人愚见,应该根据分布式计算的计算类型来配置。分布式并行处理系统从磁盘I/O角度可以分为弱I/O和强I/O两种。一般的互联网大数据分析为弱I/O,这样存储可以采用分布式存储,具体为一个计算节点上挂一个大硬盘,典型例子为阿里云。架构图如下:
上图展示了Hadoop 系统的分布式存储和并行计算构架。从硬件体系结构上看,Hadoop 系统是一个运行于普通的商用服务器集群的分布式存储和并行计算系统。集群中将有一个主控节点用来控制和管理整个集群的正常运行,并协调管理集群中各个从节点完成数据存储和计算任务。每个从节点将同时担任数据存储节点和数据计算节点两种角色,这样设计的目的主要是在大数据环境下实现尽可能的本地化计算,以此提高系统的处理性能。为了能及时检测和发现集群中某个从节点发生故障失效,主控节点采用心跳机制(Heartbeat)定期检测从节点,如果从节点不能有效回应心跳信息,则系统认为这个从节点失效
下面具体谈谈强I/O的,强I/O的业务有遥感图像处理等。强I/O对网速和磁盘寻址速度的要求很高。一般采用这样的系统架构,采用集中式存储,底层为san磁盘阵列,通过san交换机和计算服务器相连,各个计算服务器通过万兆以太网交换机相连,这样形成两个网络:存储网络和计算网络。硬件架构图如下:
上图展示了强I/O类型的分布式计算的硬件架构。可以看到这种架构形成了三层网络,首先是存储阵列和计算节点基于数据存储形成了存储网络,然后各个计算节点基于管理的需要(如添加和删除节点)形成了管理网络,计算节点基于分布式计算的需要形成了计算网络(主要用于计算过程中的数据传输)。
参考文献: