网站服务架构

服务器划分

对于访问量大的网站而言，将网站的各个部分拆分分别部署到不同服务器上是很有必要的。例如将图片和web站点分开。一般而言，在网站的整个服务器部署上分为如下几种类型：

文件服务器：一般存储系统的相关图片和文件，给各个子系统提供统一的文件调用

代理服务器：一般使用linux+Nginx作为反向代理

web服务器：.net中最常用的Web服务器IIS，Mono中一般使用Nginx

应用服务器：负责系统中各个业务逻辑的提供，比如用户中心，结算中心，支付中心等

缓存服务器：提供MemCached缓存服务

数据库服务器：负责网站数据的提供，一般为Sqlserver,mysql,oracle等

带宽的计算

假设网站每天要承受100万pv的访问量，计算带宽要涉及到两个指标(峰值流量和页面平均大小),带宽单位为bps(bit/s)。

1、假设峰值流量为平均流量的5倍；

2、假设每次访问的平均页面大小为100KB左右。

1B=8b---------------------1B/s=8b/s(1Bps=8bps)

1KB=1024B ------------- 1KB/s=1024B/s

1MB=1024KB------------1Mps=1024KB/s

100万pv访问量一天平均分布，折合每秒大约访问12次，页面大小为字节(Byte),总共访问页面大小就是12*100KB=1200KB,1Byte=8bit,则1200KB=9600Kb，9600Kb/1024大约9Mb/s(9Mbps)，我们网站在峰值流量时一定要保持正常访问，则真实带宽应该在9M*5=45Mbps左右。

网站架构的演变过程之一

公司刚刚起步，业务量不大，往往可能在某个虚拟主机空间商租用一个虚拟主机和一个数据库就搭建了一个最基本的网站

网站架构的演变过程之二增加缓存

随着业务量增加，用户的访问越来越多，网站经常性的打不开，慢，甚至出现数据库链接达到最大限制数，这个时候需要针对网站做一些优化策略：

减少Http请求，压缩css，js，图片的大小
将Microsoft Ajax Minifier集成到VS2010对JS，CSS进行编译时压缩
增加页面缓存和增加数据缓存处理
cnblogs上的缓存全解析
自购服务器进行IDC托管
自购服务器能够提升硬件的档次以及带宽可以自由控制，一般都是独享带宽，相比共享带宽来说能够支撑更多的访问量

网站架构的演变过程之三增加web服务器

当系统访问量的再度增加，webserver机器的压力在高峰会上升到比较高，这个时候开始考虑增加一台WebServer，但是增加一台WebServer的时候意味着要在两台的服务器上分别建立相同的站点，那么就会出现如下问题：

如何让访问分配到这两台机器上？Nginx

如何保持状态信息的同步，例如用户session等？

正常考虑的方案有写入数据库、开启状态服务器、cookie、写入缓存等。

如何保持数据缓存信息的同步？

缓存服务器

如何让上传文件这些类似的功能继续正常？

采用文件服务器统一管理

网站架构的演变过程之四分库，分表，分布式缓存

通过增加web服务器享受了一段快速访问的幸福后，发现系统又开始变慢了，经过查找，发现数据库写入、更新的这些操作的部分数据库连接的资源竞争非常激烈，导致了系统变慢，这下怎么办呢？

分库

分表

Memcache,Redis分布式缓存

水平分区 VS 垂直分区

	水平	垂直
存储依赖	可跨越DB 可跨越物理机器	可跨越表空间,不同的物理属性不能跨DB存储
存储方式	分布式	集中式
扩展性	Scale Out(横向扩展，增加便宜设备)	Scale Up(升级设备)
可用性	无单点	存在单点(DB数据本身)
价格	低廉	适中，甚至昂贵
应用场景	web 2.0

架构演变过程之五Web园或增加更多WebServer

在做完分库分表这些工作后，数据库上的压力已经降到比较低了,这个时候可能到了下一个瓶颈，查看windows的性能计数器发现有大量的阻塞请求，于是可以做Web园或者添加一些webserver服务器。在这个添加webserver服务器的过程，有可能会出现如下几个问题：

一台Nginx服务器的软负载已经无法承担巨大的web访问量了，可以用硬件负载解决F5或应用从逻辑上做一定的分类，然后分散到不同的软负载集群中

原有的一些状态信息同步、文件共享等方案可能会出现瓶颈，需要进行改进，也许这个时候会根据情况编写符合网站业务需求的分布式文件系统等；

在做完这些工作后，开始进入一个看似完美的无限伸缩的时代，当网站流量增加时，应对的解决方案就是不断的添加webserver。

架构演变之六读写分离和廉价存储方案

通过增加web服务器享受了一段快速访问的幸福后，发现系统又开始变慢了，经过查找，发现数据库写入、更新的这些操作的部分数据库连接的资源竞争非常激烈，导致了系统变慢，这下怎么办呢，读写分离,订阅和发布

廉价存储方案Nosql

NoSQL = Not Only SQL 指的是非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。

NoSql数据库大量应用于微博系统等事务性不强的系统

BigTable

MongoDB

http://tech.it168.com/topic/2011/10-1/nosqlapp/index.html

架构演变之七进入大型分布式应用时代和廉价服务器群梦想时代

经过上面这个漫长而痛苦的过程，终于再度迎来了完美的时代，不断的增加webserver就可以支撑越来越高的访问量了，但是原来部署在webserver上的那个web应用已经非常庞大了，当多个团队都开始对其进行改动时，相当的不方便，复用性也相当糟糕，基本上每个团队都做了或多或少重复的事情，而且部署和维护也是相当的麻烦，因为庞大的应用包在N台机器上复制、启动都需要耗费不少的时间，出问题的时候也不是很好查，另外一个更糟糕的状况是很有可能会出现某个应用上的bug就导致了全站都不可用，还有其他的像调优不好操作（因为机器上部署的应用什么都要做，根本就无法进行针对性的调优）等因素，根据这样的分析，开始痛下决心，将系统根据职责进行拆分，于是一个大型的分布式应用就诞生了，通常，这个步骤需要耗费相当长的时间，因为会碰到很多的挑战：
1、拆成分布式后需要提供一个高性能、稳定的通信框架，并且需要支持多种不同的通信和远程调用方式；
2、将一个庞大的应用拆分需要耗费很长的时间，需要进行业务的整理和系统依赖关系的控制等；
3、如何运维（依赖管理、运行状况管理、错误追踪、调优、监控和报警等）好这个庞大的分布式应用。
经过这一步，差不多系统的架构进入相对稳定的阶段，同时也能开始采用大量的廉价机器来支撑着巨大的访问量和数据量，结合这套架构以及这么多次演变过程吸取的经验来采用其他各种各样的方法来支撑着越来越高的访问量。

参考：http://www.cnblogs.com/genson/archive/2009/10/22/1587836.html

博客地址：	http://www.cnblogs.com/jiekzou/
博客版权：	本文以学习、研究和分享为主，欢迎转载，但必须在文章页面明显位置给出原文连接。如果文中有不妥或者错误的地方还望高手的你指出，以免误人子弟。如果觉得本文对你有所帮助不如【推荐】一下！如果你有更好的建议，不如留言一起讨论，共同进步！再次感谢您耐心的读完本篇文章。

分类: 系统架构

绿色通道：好文要顶关注我收藏该文与我联系

邹琼俊
关注 - 12
粉丝 - 202

+加关注

(请您对文章做出评价)

« 上一篇：Git入门

posted @ 2015-07-26 16:15 邹琼俊阅读(2640) 评论(14) 编辑收藏

评论列表

回复引用

#1楼 2015-07-26 16:29 foreach_break

博主还是站在“服务器”层面思考问题。

而你要的支撑scale out的、分布式的架构通常这样考虑问题：

1.storage & cache & replication
rdb sharding(OLTP) + redis cache + hbase(archive)(OLAP)

2.sync & consistency
zookeeper + curator (paxos)

3.stream computing
source : rdb(MySQL、SQL Server、Oracle)、hdfs、hive、hbase
replayble source : kafka
stream computing engine : samza、storm

4.communication
thrift

5.off-line computing
hadoop

6.memory computing & iterative computing
spark

have fun : ]

支持(1)反对(0)

#2楼 2015-07-26 16:52 GoYF

博主有没有asp.net分布式框架的demo？

支持(0)反对(0)

#3楼 2015-07-26 23:12 Charlie.Zheng

大部分项目其实都很难到第5级,所以大部分开发人员都需要这样言简意赅,能把复杂问题简单化的文章,支持下.

#4楼 2015-07-27 08:48 koi

mark

#5楼 2015-07-27 08:51 AlexanderSu

现在的云服务能比较方便的解决这些问题，我们现在用阿里云，除了核心的业务跑在自己的服务器上，其它的如：数据库、缓存、静态资源、负载均衡都跑在阿里云上面。省时省事还省钱，虽然也有些小问题但也慢慢解决了。而且像数据库读写分离、负载分配及会话保持等等能想到的常见问题其实阿里云都已经给出了方案，看一下使用说明配一下就行了。这样，我们就可以花更多的时间去关心核心业务层面的东西，而且不是基础设施建设了。当然了，了解一下其中的基本原理还是非常有必要的，这样能加快对这些功能的理解和问题的排查，但现在一般中小规模的应用不建议自己买服务器到机房托管，真的太累了...

支持(2)反对(0)

#6楼 2015-07-27 09:30 最爱晴天

哈~~楼主，好文章，正好想了解下这块，收藏了~~~另外如果楼主有时间和兴趣的话如果可以分步讲解下asp.net分布式框架的具体实现会更好~~我等码农很是感激~~~

#7楼 2015-07-27 09:49 张善友

Mono中一般使用Jexus吧，Jexus比Nginx跑asp.net更好，我刚整理这部分文档 http://www.cnblogs.com/shanyou/p/4677569.html

#8楼 2015-07-27 09:58 章为忠

#9楼 2015-07-27 10:08 KoMiles

#10楼 2015-07-27 10:42 沈赟

mark，谢谢分享

#11楼 2015-07-27 11:25 euler

#12楼 2015-07-27 11:29 worldball

#13楼 2015-07-27 11:38 丁码农

上Jexus吧。工业级的应用服务器，比用Nginx+Mono效率高。

#14楼 2015-07-27 12:04 钻葛格

mark，慢慢学习，感谢楼主分享。