• TDH-search汇报理解


    题目:海量数据查询
    开头:
    1.自我介绍;
    2.题目切入:
    什么是海量数据查询?(海量数据,快速,符合要求)
    几个常用场景(搜索引擎,百度;话单查询;影像平台,高铁)
    3.展示目录:架构,案例,平台规划
    4.架构,常用需求的切入:
    高并发qps;
    全文搜索(模糊查询,类似sql like;近义词;有PDF,WORD,文本等解析能力);
    固定查询(固定字段,可组合查);
    灵活查询(任意字段,随意组合查);
    非结构化数据存储(小文件,半结构,非结构数据,图片视频之类)
    5.hyperbase介绍
    来源:基于hbase,hbase基于Google bigtable;
    定义:列式,key-value,分布式数据库;
    特性:稳定健壮;多个运维工具针对集群维护;完善的sql支持(inceptor);
    超高并发支持;支持多种索引;高速入库;高效分析;非结构化支持。
    6.search介绍
    1.擅长做灵活查询,全文搜索;
    2.比solr,es优点:做了大量工作,单节点(单实例,2T*12)容量增加到15-20T左右;
    冷热数据隔离;提高压缩比,压缩速率;高速检索分析;
    堆外内存管理:解释单节点容量能达到20T问题;管理jvm最大30G,索引+segment占用内存,把堆内存解放
    放在堆外,扩展了内存,提高了IO效率,减少了GC次数;
    支持sql2003标准;
    3.另外的工作:基于时空地理信息的高效处理;
    7.关键字对应的解决方案
    高并发:hyperbase,search(1w,300);
    全文搜索:search;
    灵活查询:search;
    固定查询:hyperbase>search
    非结构存储:hyperbase
    8.场景组合:
    高并发+固定查询:柜面查询,话单查询,历史记录查询,交易记录查询;
    注意点:
    hbase和search不适合做join(join需求只适合小表10W以下,返回1W以内);
    hbase和search都不适合做聚合和排序,除非返回数据较少
    9.案例解决方案
    1.挑战:持续增长数据,数据类型多样
    2.解决方案:TDH
    3.效果:硬件成本1/3;千亿级数据秒级返回;PB级别数据的存储和检索;时空分析秒级响应
    4.框图:主线:数据源(结构化,非结构化)组件(hyperbase,search),功能,平台,场景应用
    10.检索场景评估:
    1.hyperbase:裸容量=原始数据量*(1+20%膨胀)*3副本/3(压缩率);
    2.search:裸容量=原始数据量*(1+100%膨胀)*(1+1)副本;
    11.hyperbase性能指标:
    1.单个regionserver建议不超过4000*7=28T的存储容量;
    2.bulkload入库:20-30M/s;
    3.API入库:10M/s;
    4.索引入库:带1个索引,入库性能降低20%;
    5.rebuild时间:10M/S/机器;
    12.search 性能指标:
    1.查询:ms级别;
    2.并发:上限300qps;
    3.rebuild时间:search不开副本1W/tps,开副本5000/tps;
    4.search处理上限:单实例15T,开源6T









  • 相关阅读:
    人工智能,垂直领域
    西方企业该向中国式创新学什么?
    [Leetcode 6] ZigZag问题的一种新思路
    Unknown column '*' in 'field list' 异常解决
    多媒体——图像文件大小的计算
    Lucky Number
    win7 64位系统下进入debug
    Chromium网页DOM Tree创建过程分析
    做好长期奋斗的准备
    IP寻址和子网运算
  • 原文地址:https://www.cnblogs.com/Lxiaojiang/p/9599895.html
Copyright © 2020-2023  润新知