• 从运维到运维大神,只需要一个正确的选择


    简介: 对于运维工作来说,想要在黑天鹅横飞,灰犀牛直撞的当下,既能独善其身,又能兼济天下,那么选择一款靠谱的存储产品,是至关重要的。

    储留香.jpg

    马上就是7月24日听群里的朋友说,7和24这两个数字是运维工作的最佳体现——7X24小时待命,所以咱们IT人将这一天自定义为“运维日”

     

    对于运维工作来说,想要在黑天鹅横飞,灰犀牛直撞的当下,既能独善其身,又能兼济天下,那么选择一款靠谱的存储产品,是至关重要的。

     

    今天,我们就来聊一聊“选择”这个话题。

     

    一、那个男人和他的定律

     

    时间是1949年,地点是美国爱德华兹空军基地。一名工程师半开玩笑的提出了一个后来以自己的名字命名的定律——墨菲定律,这个定律指出:

    墨菲定律.png

    翻译翻译!

    就是如果事情有变坏的可能,不管可能性有多小,它总会发生。就是这个定律,让很多IT人从此过上了提心吊胆的日子。

     

    你说我全防出去了!但不好意思,很多时候,甚至都不知道发生了啥,问题就来了。

    数据翻转.png

    在咱们IT宇宙,Bug超多样,坑你没商量。比如,硬件系统中,数据翻转(包括内存/网络/磁盘的位翻转)不仅时有发生,而且反手就是一个数据丢失。再比如,CPU的静默数据错误,由于它不可被检测,堪比无色无味的十香软筋散,处理起来更是棘手。

     

    除了硬件错误,软件Bug也会导致数据丢失,特别是元数据一旦受到影响,则可能从一台机器扩散到一个集群,甚至被数据复制功能扩展到全球整个服务。防不胜防啊!

     

    那么,倔犟的对象存储是如何应对的呢?

     

    二、OSS的应对之道

     

    1、深淘滩,低作堰:打造“数据护盾体系”

     

    如果把数据比作孙悟空,那么既不能让它逃出五指山,丢了也不能让它变为六耳猕猴,错了

    孙悟空直播.png

    一种数据保护思路就是使用冗余技术,那效果简直不要太好!

    副本和纠删码(Erasure Coding,EC)是分布式存储系统中常用的两种数据冗余保护策略。

     

    很多小朋友要问了:这两种策略要如何选择呢?

    • 对性能要求高的业务(比如数据库)用副本
    • 对预算成本敏感的业务(比如视频、影像等海量数据存储)用纠删码

     

    小朋友才做选择题,咱们IT人,当然全都要!

     

    对于盘古这样excellent的分布式存储系统来说,已经实现了副本和纠删码二者的兼得。做到副本和EC起飞,安全共成本一色!

    大树盘古.png

    基于盘古的阿里云对象存储OSS采用的纠删码配比是N+M(将原始数据分为N份,计算M份冗余,N和M均可调整),将数据存储在不同的存储介质,实现数据分层存储,已写入的数据还可以通过改变N和M的比例,转储为指定存储类型,完成数据的生命周期管理。

     

    当然,一味地节省成本并不是万全之策!

     

    狡兔三窟的成语告诉我们一个道理:别把鸡蛋放在同一个篮子里。听人劝,吃饱饭的OSS将数据分散存放在同一地域(Region)的3个可用区,在某个可用区不可用时,依然可以保证数据可以正常访问。

    OSS多可用区.png

    依靠纠删码和多可用区冗余,OSS的可用性SLA提升到99.995%,也就是每5分钟内10万请求最多只错5个。理论上的出错的概率,差不多等于双色球三等奖的中奖概率。

     

    但这世上,又有几人中过三等奖呢?

     

    2、背靠大树好乘凉,打造“分层容错体系”

     

    表面上看,市面上的对象存储没差啊,都带个object,但其实能力千差万别。

     

    数十万的客户共享海量资源池,做好租户之间的资源隔离,让马奔大道、虎奔山就显得尤为重要。OSS的方式是通过采取不同租户的带宽和QPS流控、异常流量全网秒级告警等手段,避免过大的访问压力造成用户互相挤占,保证系统正常运行。横向对比一下,这技术天花板,那高得真的不是一星半点!

     

    针对误操作,OSS还提供了一剂后悔药——OSS版本控制功能,开启这个功能之后,针对数据的覆盖和删除操作将会以历史版本的形式保存下来,可以轻松将Bucket中存储的Object恢复至任意时刻的历史版本。失而复得的快乐,你值得拥有!

     

    除了内因,外因也不得不防。

     

    IT世界光怪陆离,黑客们早已升级,他们不杀人放火,他们敲诈勒索。平时遭遇点DDoS攻击,那是老板的大度,但要是被病毒勒索了,宕机了,那就等着老板的超度吧。

     

    但,别怕!所谓魔高一尺,道高一尺一,OSS引入了防篡改能力,不仅清热解“毒”,而且还能强身健体。此外,OSS还与阿里云安全产品联手推出高防能力,构建金刚伏魔圈,同时使用移形换影大法,将攻击流量牵引至高防集群进行清洗。无惧DDoS冷箭。

    无惧冷箭.png

    OSS还有多个技术细节,轻松应对网络灰产,比如堪比“芙蓉金针”的的探针系统,可准确检测灰产,并快速实现IP隔离。什么叫专业,其实就是细节!

     

    超长待机的IT人贼拉多,每位都有故事,而每个故事的背后,其实都是一次历练,不白折腾!

     

    多少次午夜梦回,IT人或许会梦到那个拯救了公司业务系统的运维大神,那是公司的至暗时刻,却是他的高光时刻,几个简单操作,就让老板的目光变得如流水般温柔,笑容变得如夏花般绚烂。

     

    其实,从运维到运维大神的距离,说短不短,说长也不长,只需要在一开始就做出那个最正确的选择。现在,聪明的你,知道怎么选了吗?

     

    彩蛋:

    7月24日晚7:24分,阿里云联合中国计算机行业协会信息存储与安全专业委员会,邀请到了来自阿里云、字节跳动、华中科技大学的多位专家,共同探讨数字经济时代存储系统的运维之道。点击这里,预约直播,我们不见不散!

    打造共同体人物海报副本.jpg

     原文链接:http://click.aliyun.com/m/1000349560/
    本文为阿里云原创内容,未经允许不得转载。
  • 相关阅读:
    项目管理【53】 | 项目风险管理-规划风险应对
    Learning a Continuous Representation of 3D Molecular Structures with Deep Generative Models
    转:DenseNet
    转:期刊投稿中的简写(ADM,AE,EIC等)与流程状态解读
    论文中如何写算法伪代码
    氨基酸,多肽,蛋白质等
    pytorch查看全连接层的权重和梯度
    AI制药文章
    long-tail datasets
    转:Focal Loss理解
  • 原文地址:https://www.cnblogs.com/yunqishequ/p/16497300.html
Copyright © 2020-2023  润新知