继续向大家汇报阿里云上的天气变化情况。今天(5月8日)上午糟糕的天气(8:30~9:50,10:50~11:40)给大家逛园带来了很大的麻烦,请谅解!
早上8:30左右由于阿里云RDS出现突发故障(故障是RDS负载均衡引起的),造成网站不能正常访问,访问时出现了504 Gateway Time-out错误。
8:45左右RDS恢复正常,但由于RDS故障恢复时进行了HA切换(数据库热备切换),数据库访问切换到了另外一台热备服务器上,而这台SQL Server服务器需要一段时间进行预热(建立缓存)。
在预热期间由于SQL缓存命中率低,大量的磁盘IO造成很多SQL查询执行时间很长,引起网站访问速度变得很慢。当时正在值访问高峰期,SQL Server一边要进行预热,一边要处理大量的查询请求,这种雪上加霜的情形让SQL Server迟迟不能进入正常工作状态。后来通过增加RDS内存提高SQL Server缓存命中率之后才解决问题。
这种情况我们是第一次遇到,以前用自己的服务器,即使服务器重启,起来之后SQL Server很快就能进入正常工作状态。可能是因为现在的数据库压力比以前大了很多。
这次故障说明了即使数据库服务器有热备,但切换到热备服务器也不能保证短时间内恢复正常。
这次故障说明了缓存是多么多么的重要,因为在热备服务器预热阶段,唯一能减轻SQL Server负担的就是缓存,虽然我们最近对缓存进行了很大的优化,但还远远不够。
这次故障说明了阿里云需要进一步提高RDS的稳定性。云计算,稳定大于一切!
出了这么多问题,很多朋友在质疑我们为什么还坚守在阿里云上?
我们考虑过很多次,支撑我们坚守的理由有:
- 我们真的很需要云计算
- 云计算真的会变得和水电一样重要,它的发展会给整个产业带来巨大的提升;
- 做云计算平台真的很复杂、难度很大,而且是摸着石头过海,没有多少经验可以借鉴;
- 阿里云是目前国内最有希望将云计算做起来的,我们相信阿里云能解决这些问题。
任何一个伟大的东西不是因为天生伟大,从不出问题,而是因为它把所有遇到的问题都解决了,然后变得伟大。
坚守在阿里云上,就是坚守在云计算之路上,在乌云中坚信蓝天源于这样一个信念:我们坚信云计算的时代已经到来了!