• 阿里云栖开发者沙龙-玩转数据库技术-20181201


    1.HBase 介绍以及典型场景分析

    (1)基本介绍

    为大数据而生:海量存储、非结构化数据、高扩展、灵活数据模型,在线与离线计算结合。

    PB级别海量数据存储,百万列

    底层基于hdfs

    压缩比10:1

    无模式,仅定义列簇即可

    基于rowkey检索

    高读写、低延迟

     HBase运维比较麻烦

    传统DB:亿行1T,100K TPS

     HBase:万亿行10PB,1000M TPS

     (2)基本架构

    Spark的 OLAP/流/批    mlib 

    SQL  KV  Graph 时空 时序

    HBase+solr:rowkey索引+全文索引/二级索引

    SSD   HDD  OSS

     (3)企业特性

    数据备份恢复:源仅支持全量备份,阿里支持全量+增量备份。

    实时数据同步:MySQL、prosgre等异步实时同步到HBase里,利用spark进行分析。延迟200ms以内。

    冷热分离:存储计算分离,热数据存在高效云盘(7毛/月),冷数据在OSS中(2毛/月,压缩比10:1)。读写API相同,写入QPS>20W,读取时冷数据低。

    主备多活异地容灾:两个集群主备,人工去做切换,延迟200ms以内,数据最终一致性。

    延迟

    类型   开源:停顿时间(不工作了)  开源:频率  阿里:停顿时间  阿里频率

    YGC  100ms+    5s  10ms  5s

    Cms   100-500ms  5Min  100ms  5h

    FGC   20s-180s  7-60days  

     诊断系统

    Hbase组件多,常见问题或错误(hbase  zk    hdfs)

     (4)hbase生态

    Phoenix –sql on hbase  SQL引擎、简单查询,无法做复杂查询。

    Spark:sql streaming,复杂查询,支持多源(hbase与oss的join)

    openTSDB:时序,满足物联网、传感器、监控、金融k线等时序应用场景。主要用途,就是做监控系统;譬如收集大规模集群(包括网络设备、操作系统、应用程序)的监控数据并进行存储,查询。

    Solr:基于Lucene全文索引,冗余非rowkey列,提供模糊查询、范围查找。

    GeoMesa:提供时空能力,轨迹查询

    HGraphDB:图,风控场景把套现相关人关联起来。

    (5)典型案例

    广告买流分析平台

    实时广告-兑吧

    今日头条

    小对象实时存取(10M内),如图片人脸。稀疏矩阵场景

    车联网案例(海量数据存储图)

    2.阿里云Apsara数据库

    国产数据库首次入选Gartner数据库魔力象限。阿里云自研关系型云原生数据库Polardb

    (1)数据库演化

    线下产品license(传统数据库)===> 线上自助服务(云数据库)===> 到分布式serverless(云原生数据库)。

    (2) 云服务高可用、可扩展、可靠性进化

    基于虚拟机的单数据库服务—便宜,应用广泛

    Active-Standby的高可用云数据库—主备数据库,提供高可用(资源浪费、数据同步)(主机复制到备机完成前,主机挂掉,切不切换,切可保业务响应难保数据一致性)

    读写分离(读请求比写多)(写时,主机数据同步多个读节点,压力山大)

    分布式共享存储active的高可用读写分离的severless云数据库服务

    (3)Apsara数据库

    计算存储分离,多活高可用读写分离,存储serverless的四维弹性(节点横向扩展、节点纵向扩展、存储自动伸缩,业务快速复制)。

    100%兼容MySQL,强弹性伸缩。

     (4)题外话

    拥抱新技术,最早技术红利套现

    github被微软收购。

    3.阿里云Redis技术架构

    (1)redis简介

    key-value存储系统

    易用性:丰富数据结构支持,Module(自定义数据结构)

    高性能:高效数据结构设计,全内存操作(单机性能10w+qps)

    可靠性:主备同步,持久化

     (2)阿里redis产品体系

    单节点-单机主备-集群-读写分离-同城容灾-异地多活

    更大容量、更高性能、更高可用性

    (3)6大管控系统

    HA控制系统、日志收藏系统、监控系统、在线迁移系统、备份系统

    a. 标准双副本架构,一主一从:纯缓存、数据持久化。性能8-10w qps  ,数据量不大GB级

    b. 集群双副本:数据量TB级,数据量大,性能100w qps

    c. 读写分离:读多写少,超大key,不要强一致性。

    d. 同城容灾:主备型多一个主备切换。数据可用性要求高,TO 大B用户。单机房故障无缝。

    e. 异地容灾多活:TO 大B可用,多点读写,就近读写。容忍N-1机房故障,最终一致性。

    4.MongoDB Best Practice

    Nosql

    MongoDB是一个基于分布式文件存储的数据库。

    HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统。

    5.去IOE

    (1)什么是去IOE

    I:IBM小型机、O:Oracle数据库、E:EMC中高端SAN存储

    去IOE:集中式架构==>分布式架构(云计算)

    (2)为什么去IOE

    原因:扩展能有限、处理海量数据性能不足

    Oracle RAC共享存储架构(Shared-disk),非常好的高可用特性,扩展能力有限。

    共享存储的IO能力和可用性决定了整个集群的可以提供的能力。节点数的不断增加,节点间通信的成本也会随之增加,会有上限。

    (3)实际操作

    阿里:部分海量数据应用,采用数据切分(sharding)策略,从集中式oracle切换到分布式MySQL集群,从纵向扩展到水平扩展,解决数据库扩展性问题。

    阿里去O的工具平台:ADAM(数据库和应用迁移服务)

    6.Fintech(金融科技)

    Fintech(金融科技)是 Financial + Technology 的合成词,即:金融和科技。

    以科技作为整体核心驱动力,将技术应用到金融中,从而提高公司的效率和收益。

    京东为了预防诈骗,通过大数据建立了属于自己的大数据和风控体系,在应用了一系列人工智能技术后,成功实现了京东白条的无人工审核和放款,对三亿用户的信用风险进行评估,从而让自身的金融不良率低于 1%,在节省人力的同时,大大提高了企业的服务效率。

    参考文档:

    HBase基础

  • 相关阅读:
    【Javascript】JS单例模式的简单实现
    【Javascript】Javascript中如何判断变量是数组类型
    买卖股票的最佳时机 II
    只出现一次的数字
    删除排序数组中的重复项
    两数之和
    Android系统中Fastboot和Recovery所扮演的角色。
    虚函数、纯虚函数、抽象类、接口 (Java_C++_C#)
    关于cmd中执行命令路径包含空格的解决办法
    Windows API 编程学习记录<三>
  • 原文地址:https://www.cnblogs.com/badboy200800/p/10056660.html
Copyright © 2020-2023  润新知