首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >快手HBase在千亿级用户特征数据分析中的应用与实践

快手HBase在千亿级用户特征数据分析中的应用与实践

作者头像
大数据真好玩
发布2019-10-23 17:10:42
发布2019-10-23 17:10:42
1.2K0
举报
文章被收录于专栏:暴走大数据暴走大数据

背景

快手每天产生数百亿用户特征数据,分析师需要在跨30-90天的数千亿特征数据中,任意选择多维度组合(如:城市=北京&性别=男),秒级分析用户行为。针对这一需求, 快手基于HBase自主研发了支持bitmap转化、存储、索引、快速计算的分析服务--BitBase,并成功应用于留存分析、用户增长、广告营销、ABTest 等多个业务场景。

业务需求及挑战

快手在实际业务中遇到的需求,需要用的业务场景:在千亿级别的日志中,选择任意的维度,计算7-90日用户留存,秒级返回。

技术选型

为此,快手调研了包含Hive、ES、clickhouse在内的多种技术方案。

技术方案

最后形成了基于bitmap和Hbase的BitBase解决方案。

对bitmap不熟悉的同学看这里:https://www.jianshu.com/p/bf9dbbc147ed

所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,可以大大节省存储空间。

多维计算最后被设计成在bitmap之间做与、或、非、异或、count、list计算。

整个BitBase方案如下:

整体架构:
存储模块:

这里所有table的原信息会存在一个bitmap中,具体数据存在不同的bitmap中,bitmap的位数根据表数据量大小进行确定。

计算模块:
deviceId问题

在实际问题中,复杂的deviceId会被转换成一个index(long)值。并且需要有以下特性:连续、一致、反解、转换速度快。

连续、一致、反解技术方案
如何实现快速转化
业务效果

在实践延迟方面,90天留存计算也可以在10秒内返回。

服务现状:

未来规划

未来规划包括:

  • 离线bitmap能够在5min导入
  • SQL支持
  • 开源
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-10-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据真好玩 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 背景
  • 业务需求及挑战
    • 技术选型
    • 技术方案
    • 业务效果
    • 未来规划
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档