• 快手HBase在千亿级用户特征数据分析中的应用与实践


    声明:本文的原文是来自Hbase技术社区的一个PPT分享,个人做了整理和提炼。
    大家注意哈,这种会议PPT类的东西能学习到的更多的是技术方案和他人在实践过程中的经验。希望对大家有帮助。

    背景

    快手每天产生数百亿用户特征数据,分析师需要在跨30-90天的数千亿特征数据中,任意选择多维度组合(如:城市=北京&性别=男),秒级分析用户行为。针对这一需求, 快手基于HBase自主研发了支持bitmap转化、存储、索引、快速计算的分析服务--BitBase,并成功应用于留存分析、用户增长、广告营销、ABTest 等多个业务场景。

    业务需求及挑战

    快手在实际业务中遇到的需求,需要用的业务场景:在千亿级别的日志中,选择任意的维度,计算7-90日用户留存,秒级返回。

    file

    技术选型

    为此,快手调研了包含Hive、ES、clickhouse在内的多种技术方案。

    file

    技术方案

    最后形成了基于bitmap和Hbase的BitBase解决方案。

    file

    对bitmap不熟悉的同学看这里:https://www.jianshu.com/p/bf9dbbc147ed

    所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,可以大大节省存储空间。

    多维计算最后被设计成在bitmap之间做与、或、非、异或、count、list计算。

    整个BitBase

    整体架构:

    file

    存储模块:

    file
    这里所有table的原信息会存在一个bitmap中,具体数据存在不同的bitmap中,bitmap的位数根据表数据量大小进行确定。

    计算模块:

    file

    deviceId问题

    file

    在实际问题中,复杂的deviceId会被转换成一个index(long)值。并且需要有以下特性:连续、一致、反解、转换速度快。

    file

    连续、一致、反解技术方案

    file

    如何实现快速转化

    file

    业务效果

    在实践延迟方面,90天留存的时间也可以在10秒内返回。
    file

    服务现状:
    file

    未来规划

    未来规划包括:

    • 离线bitmap能够在5min导入
    • SQL支持
    • 开源

    file

    声明:本号所有文章除特殊注明,都为原创,公众号读者拥有优先阅读权,未经作者本人允许不得转载,否则追究侵权责任。

    关注我的公众号,后台回复【JAVAPDF】获取200页面试题!
    5万人关注的大数据成神之路,不来了解一下吗?
    5万人关注的大数据成神之路,真的不来了解一下吗?
    5万人关注的大数据成神之路,确定真的不来了解一下吗?

    欢迎您关注《大数据成神之路》

    大数据技术与架构

  • 相关阅读:
    JVM学习-垃圾回收算法
    JVM学习-jvm判断对象已死的方法
    JVM学习-jvm内存区域
    python 多线程
    Python+unittest+requests+excel实现接口自动化测试框架
    linux 运行tensorflow文件缺少_bz2问题及解决
    获取url地址
    微信小程序的小问题(2)
    微信小程序的小问题(1)
    前端知识
  • 原文地址:https://www.cnblogs.com/importbigdata/p/11845651.html
Copyright © 2020-2023  润新知