大型站点系统架构的演化

大型站点系统架构的演化

原文：http://www.cnblogs.com/leefreeman/p/3993449.html

前言

    一个成熟的大型站点（如淘宝、京东等）的系统架构并非開始设计就具备完整的高性能、高可用、安全等特性。它总是随着用户量的添加。业务功能的扩展逐渐演变完好的。在这个过程中，开发模式、技术架构、设计思想也发生了非常大的变化，就连技术人员也从几个人发展到一个部门甚至一条产品线。所以成熟的系统架构是随业务扩展而完好出来的。并非一蹴而就；不同业务特征的系统。会有各自的側重点，比如淘宝，要解决海量的商品信息的搜索、下单、支付，比如腾讯。要解决数亿的用户实时消息传输，百度它要处理海量的搜索请求。他们都有各自的业务特性，系统架构也有所不同。
虽然如此我们也能够从这些不同的站点背景下。找出当中共用的技术。这些技术和手段能够广泛执行在大型站点系统的架构中，以下就通过介绍大型站点系统的演化过程，来认识这些技术和手段。

一、最開始的站点架构

    最初的架构。应用程序、数据库、文件都部署在一台server上，如图：

二、应用、数据、文件分离

    随着业务的扩展。一台server已经不能满足性能需求，故将应用程序、数据库、文件各自部署在独立的server上，而且依据server的用途配置不同的硬件，达到最佳的性能效果。

三、利用缓存改善站点性能

    在硬件优化性能的同一时候。同一时候也通过软件进行性能优化。在大部分的站点系统中，都会利用缓存技术改善系统的性能，使用缓存主要源于热点数据的存在，大部分站点訪问都遵循28原则（即80%的訪问请求，终于落在20%的数据上）。所以我们能够对热点数据进行缓存，降低这些数据的訪问路径，提高用户体验。

    缓存实现常见的方式是本地缓存、分布式缓存。当然还有CDN、反向代理等。这个后面再讲。本地缓存，顾名思义是将数据缓存在应用server本地，能够存在内存中，也能够存在文件。OSCache就是经常使用的本地缓存组件。本地缓存的特点是速度快。但由于本地空间有限所以缓存数据量也有限。分布式缓存的特点是，能够缓存海量的数据，而且扩展很easy。在门户类站点中经常被使用。速度按理没有本地缓存快，经常使用的分布式缓存是Memcached、Redis。

四、使用集群改善应用server性能

    应用server作为站点的入口，会承担大量的请求。我们往往通过应用server集群来分担请求数。
应用server前面部署负载均衡server调度用户请求，依据分发策略将请求分发到多个应用server节点。

    经常使用的负载均衡技术硬件的有F5。价格比較贵。软件的有LVS、Nginx、HAProxy。LVS是四层负载均衡，依据目标地址和port选择内部server，Nginx是七层负载均衡和HAProxy支持四层、七层负载均衡，能够依据报文内容选择内部server，因此LVS分发路径优于Nginx和HAProxy，性能要高些，而Nginx和HAProxy则更具配置性。如能够用来做动静分离（依据请求报文特征。选择静态资源server还是应用server）。

五、数据库读写分离和分库分表

    随着用户量的添加。数据库成为最大的瓶颈，改善数据库性能经常使用的手段是进行读写分离以及分表，读写分离顾名思义就是将数据库分为读库和写库。通过主备功能实现数据同步。
分库分表则分为水平切分和垂直切分，水平切换则是对一个数据库特大的表进行拆分，比如用户表。
垂直切分则是依据业务不同来切换，如用户业务、商品业务相关的表放在不同的数据库中。

六、使用CDN和反向代理提高站点性能

假如我们的server都部署在成都的机房，对于四川的用户来说訪问是较快的，而对于北京的用户訪问是较慢的，这是因为四川和北京分别属于电信和联通的不同发达地区，北京用户訪问须要通过互联路由器经过较长的路径才干訪问到成都的server，返回路径也一样，所以传输数据时间比較长。对于这样的情况，常用CDN解决，CDN将数据内容缓存到运营商的机房。用户訪问时先从近期的运营商获取数据，这样大大降低了网络訪问的路径。比較专业的CDN运营商有蓝汛、网宿。

而反向代理，则是部署在站点的机房，当用户请求达到时首先訪问反向代理server，反向代理server将缓存的数据返回给用户。假设没有没有缓存数据才会继续走应用server获取。也降低了获取数据的成本。反向代理有Squid，Nginx。

七、使用分布式文件系统

    用户一天天添加。业务量越来越大，产生的文件越来越多，单台的文件server已经不能满足需求。须要分布式的文件系统支撑。经常使用的分布式文件系统有NFS。

八、使用NoSql和搜索引擎

    对于海量数据的查询，我们使用nosql数据库加上搜索引擎能够达到更好的性能。
并非全部的数据都要放在关系型数据中。经常使用的NOSQL有mongodb和redis。搜索引擎有lucene。

九、将应用server进行业务拆分

    随着业务进一步扩展。应用程序变得很臃肿，这时我们须要将应用程序进行业务拆分，如百度分为新闻、网页、图片等业务。每一个业务应用负责相对独立的业务运作。业务之间通过消息进行通信或者同享数据库来实现。

十、搭建分布式服务

    这时我们发现各个业务应用都会使用到一些主要的业务服务。比如用户服务、订单服务、支付服务、安全服务，这些服务是支撑各业务应用的基本要素。我们将这些服务抽取出来利用分部式服务框架搭建分布式服务。淘宝的Dubbo是一个不错的选择。

小结

    大型站点的架构是依据业务需求不断完好的，依据不同的业务特征会做特定的设计和考虑，本文仅仅是讲述一个常规大型站点会涉及的一些技术和手段。

參考资料：

《大型站点技术架构》 ——李智慧

《海量运维运营规划》 ——唐文
相关阅读:
MySQL学习笔记（12）：触发器
 MySQL学习笔记（11）：存储过程和函数
 MySQL学习笔记（10）：视图
 MySQL学习笔记（9）：索引
 MySQL学习笔记（8）：字符集
 MySQL学习笔记（7）：存储引擎
 MySQL学习笔记（6）：常用函数
 MySQL学习笔记（5）：运算符
 MySQL学习笔记（4）：数据类型
 MySQL学习笔记（3）：SQL
原文地址：https://www.cnblogs.com/mthoutai/p/6743329.html