在数据的基建和应用层面,除了重视数据分析外,也越来越重视数据资产在更多业务场景中的应用,标签画像的建设和应用就是其中一类很常见的需求和期望。 从对业务的价值来说,标签和画像是类似中间层的系统模块,具体来说,数据资产本质上是一些采集、采购所获得的数据源,但企业希望在数据源的基础上,实现资产变现,而且不断扩大资产价值。 很多企业都意识到,这个中间层就是标签画像。 下面主要介绍了企业做标签画像的目的,重点阐述标签和画像的应用场景及应用流程,构建标签和画像体系的实操方法论,最后给出了行业案例。
在数据的基建和应用层面,除了重视数据分析外,也越来越重视数据资产在更多业务场景中的应用,标签画像的建设和应用就是其中一类很常见的需求和期望。 从对业务的价值来说,标签和画像是类似中间层的系统模块,具体来说,数据资产本质上是一些采集、采购所获得的数据源,但企业希望在数据源的基础上,实现资产变现,而且不断扩大资产价值。 很多企业都意识到,这个中间层就是标签画像。 下面这份PPT材料主要介绍了企业做标签画像的目的,重点阐述标签和画像的应用场景及应用流程,构建标签和画像体系的实操方法论,最后给出了行业案例。
3.理想标签按天更新,实时标签秒级延迟:对于业务,我们一般的标签可以按照天更新。但考虑未来发展和业界动态,有实时标签的应用和场景需求,计算要求秒级响应,可能在秒级之后做推送,然后触达用户。 二. q-sign-algorithm=sha1&q-ak=AKID2uZ1FGBdx1pNgjE3KK4YliPpzyjLZvug&q-sign-time=1604111814;1604119014&q-key-time =1604111814;1604119014&q-header-list=&q-url-param-list=&q-signature=4219c6915c3643b7653d8a3a34b280a9eee68cda q-sign-algorithm=sha1&q-ak=AKID2uZ1FGBdx1pNgjE3KK4YliPpzyjLZvug&q-sign-time=1604111956;1604119156&q-key-time 中存储对应标签值。 缺点就是有很多分区字段; 3.
标签实体及ID类型 画像标签需要绑定到实体上面,用户、商品、直播、视频等都可以作为画像的实体。 画像标签借助实体进行表达,比如用户的性别、年龄标签;商品的售价、种类、货源地标签;直播的分类、开播时间段标签;视频的风格、视频时长分段标签等,每一个标签都用于描述某个具体实体。 标签分类方式 本节主要介绍3种标签分类方式:按照生产方式、按照时效性和按照标签所属维度。本节最后给出了一个实际的标签体系分类示例。 1. 导入类标签是用户通过数据导入的方式自行构建的标签,比如用户问卷调研结果中反馈正向的用户可以导入到画像平台作为“问卷正向用户”;运营人员将某次运营活动中表现良好的用户上传画像平台构建“某活动优质用户”标签 如性别、教育程度、年龄段、婚育情况、用户兴趣等标签,代表的是用户基本属性,与用户在应用上的使用行为无关。基础属性直接反馈用户本身的信息,在画像平台中使用频率较高,属于画像平台最重要的一类标签数据。
(SparkSQL) 此处:整个项目业务数据主要存储在HBase表中 3)、构建标签 使用业务数据和标签数据(属性标签对应tagName和rule)计算标签,得到modelDF,将其保存到HBase 画像标签表:tbl_profile 存储标签数据时,也将标签数据存储同步存储到Elasticsearch索引中,方便使用标签进行查询用户 基于Elasticsearch为HBase表构建二级索引 Application名称,及标签模型分类,尤其关键为标签规则 rule 5级标签 2)、开发标签模型 如何开发标签模型及测试功能,完成以后需要打成jar包 3)、调度执行 标签管理平台中可以直接调用 ”) 自定义外部数据源方式 3)、【DataFrame】业务数据结合属性标签数据,计算标签modelDF 不同类型标签,计算标签方式不同,分为三种类型,规则匹配类型标签、统计类型标签和挖掘类型标签 ,打标签,其中涉及相关计算 4)、【HBase】标签存储将用户标签数据存储到HBase表中,同步到Elasticsearch索引中 a)、存储最新画像标签数据 存储HBase表汇总 b)、同步标签数据到
上文提到了使用画像宽表可以便捷的创建人群,本文介绍人群创建所依赖的另外一种数据组织形式:标签BitMap。 BitMap以上特点都非常适合存储人群数据,也决定了其在画像平台的广泛使用。基于Hive标签数据表可以生成BitMap,图5-10展示了性别和常住省标签生成BitMap的示意图。 生成BitMap会消耗大量的计算和存储资源,如果标签值区分度较小,生成的BitMap数据被使用到的概率较低,是对计算和存储资源的浪费。使用画像宽表还是BitMap要根据业务特点来决定。 BitMap适用的标签类型和业务场景有限,要结合实际的数据进行判断。业界一般使用混合模式,优先通过BitMap进行人群创建,不适用的场景下兜底使用画像宽表进行人群圈选。 采用混合模式要考虑对齐画像宽表和BitMap的标签时间,这增加了工程的实现复杂度。----本文节选自《用户画像:平台构建与业务实践》,转载请注明出处。
用户画像标签体系 用户画像的核心在于给用户“打标签”,每一个标签通常是人为规定的特征标识,用高度精炼的特征描述一类人,例如年龄、性别、兴趣偏好等,不同的标签通过结构化的数据体系整合,就可与组合出不同的用户画像 梳理标签体系是实现用户画像过程中最基础、也是最核心的工作,后续的建模、数据仓库搭建都会依赖于标签体系。 为什么需要梳理标签体系,因为不同的企业做用户画像有不同的战略目的,广告公司做用户画像是为精准广告服务,电商做用户画像是为用户购买更多商品,内容平台做用户画像是推荐用户更感兴趣的内容提升流量再变现,金融行业做用户画像是为了寻找到目标客户的同时做好风险的控制 而标签也分为很多种类型,这里参照常见的分类方式, 从对用户打标签的方式来看,一般分为三种类型:1、基于统计类的标签;2、基于规则类的标签、3、基于挖掘类的标签。 用户画像体系和标签分类从两个不同角度来梳理标签,用户画像体系偏战略和应用,标签分类偏管理和技术实现侧。
用户画像标签体系 用户画像的核心在于给用户“打标签”,每一个标签通常是人为规定的特征标识,用高度精炼的特征描述一类人,例如年龄、性别、兴趣偏好等,不同的标签通过结构化的数据体系整合,就可与组合出不同的用户画像 梳理标签体系是实现用户画像过程中最基础、也是最核心的工作,后续的建模、数据仓库搭建都会依赖于标签体系。 为什么需要梳理标签体系,因为不同的企业做用户画像有不同的战略目的,广告公司做用户画像是为精准广告服务,电商做用户画像是为用户购买更多商品,内容平台做用户画像是推荐用户更感兴趣的内容提升流量再变现,金融行业做用户画像是为了寻找到目标客户的同时做好风险的控制 而标签也分为很多种类型,这里参照常见的分类方式, 从对用户打标签的方式来看,一般分为三种类型:1、基于统计类的标签;2、基于规则类的标签、3、基于挖掘类的标签。 用户画像体系和标签分类从两个不同角度来梳理标签,用户画像体系偏战略和应用,标签分类偏管理和技术实现侧。
为什么需要用户画像 用户画像的核心工作是为用户打标签,打标签的重要目的之一是为了让人能够理解并且方便计算机处理,如,可以做分类统计:喜欢红酒的用户有多少?喜欢红酒的人群中,男、女比例是多少? 如何构建用户画像 一个标签通常是人为规定的高度精炼的特征标识,如年龄段标签:25~35岁,地域标签:北京,标签呈现出两个重要特征:语义化,人能很方便地理解每个标签含义。 人制定标签规则,并能够通过标签快速读出其中的信息,机器方便做标签提取、聚合分析。所以,用户画像,即:用户标签,向我们展示了一种朴素、简洁的方法用于描述用户信息。 用户画像的标签体系 从技术层面看,用户画像的过程比较乏味。我们今天来讨论一个看起来最简单、却最难以把握精髓的环节:如何设计用户画像的标签体系。 什么是标签体系简单说就是你把用户分到多少个类里面去。 (3)电商行业 从消费者的角度来看,电商行业其实不能称为是一个行业,而是多个行业的集合。
▲图2 数据应用体系的层级划分 02 用户画像的3种标签类型 用户画像建模其实就是对用户“打标签”,从对用户打标签的方式来看,一般分为3种类型:①统计类标签;②规则类标签;③机器学习挖掘类标签。 下面我们介绍这3种类型的标签的区别: 1. 在实际开发画像的过程中,由于运营人员对业务更为熟悉,而数据人员对数据的结构、分布、特征更为熟悉,因此规则类标签的规则由运营人员和数据人员共同协商确定; 3. 一般地,机器学习标签开发周期较长,开发成本较高,因此其开发所占比例较小。 03 用户画像8大系统模块及解决方案 搭建一套用户画像方案整体来说需要考虑8个模块的建设,如图3所示。 ▲图3 用户画像主要覆盖模块 用户画像基础:需要了解、明确用户画像是什么,包含哪些模块,数据仓库架构是什么样子,开发流程,表结构设计,ETL设计等。
保证标签数据质量是画像平台建设不可或缺的一个重要环节,只有保证产出高质量的标签,画像平台上的功能才有价值,这也是人群圈选准确性和画像分析结论有效性的前提和基础。如何通过工程化的方式评估一个标签的质量? 表3-13展示了评价标签质量的主要检测维度。 表3-13 标签质量检测维度检测维度说明示例及时性度量数据达到指定目标的时效性。 画像平台需要检测各类标签是否有空值,默认情况需要给标签设置默认值;需要校验标签覆盖度,即有标签数据的用户占整体用户的比例用户南北方标签,覆盖历史全量用户,且默认值是未知,需要检测该标签覆盖率是否100% 画像平台标签数据质量检测,除了通过自行编写代码实现之外也可以选择上述开源工具实现。----本文节选自《用户画像:平台构建与业务实践》,转载请注明出处。
本节将结合实际案例介绍各类画像标签的生产方式。 比如A调研问卷中的有效用户可以上传到画像平台并构建一个新的标签“A调研重点关注用户”;在B游戏发版后,数据分析师找到了一批潜在的优质用户作为后续重点运营群体,这些用户可以导入到画像平台并构建一个新的标签 Redis中,其主要流程如图3-8所示。 实时明细数据写入过程如图3-9所示。 挖掘类标签 挖掘类标签是指借助机器学习算法挖掘出的标签。 图3-10展示了挖掘类标签的生产逻辑,算法模型依赖各类特征数据进行模型训练,给定一批待预测用户之后可以计算出标签预测结果,在该预测结果基础上可以封装产出挖掘类标签。
用户画像受到热宠,不搞用户画像都不好意思说在做精细化运营了。各种用户画像标签体系建设、从0到1教你构建用户画像之类的文章广泛传播。 前几天听到有同学在规划CDP平台时,认为画像即标签,标签就是画像,用户画像和用户分群是同一主体的不同叫法,产品架构设计时,边界不清,功能交错。 标签体系一是要便于扩展,二是要便于理解和使用。标签体系比画像标签更全面、丰富,利用基础标签得到画像标签也是标签体系的输入。 画像标签是经过抽象化的数据标签,可用于用户个人画像、群体画像分析,也可作为用户圈选的标签条件。 用户分群的用户筛选条件可以来自于数据标签和画像标签,应用场景包括:人群画像分析、精细化运营和精准营销。
前言 上一篇文章已经为大家介绍了 Hive 在用户画像的标签数据存储中的具体应用场景,本篇我们来谈谈MySQL的使用! 下面详细介绍这3个应用场景。 元数据管理 Hive适合于大数据量的批处理作业,对于量级较小的数据,MySQL具有更快的读写速度。 从整个画像调度流的关键节点来看,需要监控的环节主要包括对每天标签的产出量、服务层数据同步情况的监控等主要场景。下图展示的是用户画像调度流主要模块。 3. 结果集存储 结果集可以用来存储多维透视分析用的标签、圈人服务用的用户标签、当日记录各标签数量,用于校验标签数据是否出现异常。 在打通画像数据与线上业务系统时,需要考虑将存储在Hive中的用户标签相关数据同步到各业务系统,此时MySQL可用于存储结果集。
前言 上一篇文章已经为大家介绍了 HBase 在用户画像的标签数据存储中的具体应用场景,本篇我们来谈谈 Elasticsearch 的使用! 原著作者:赵宏田 来源:《用户画像方法论与工程化解决方案》 ---- Elasticsearch存储 Elasticsearch简介 Elasticsearch 是一个开源的分布式全文检索引擎, 工程化案例 下面通过一个工程案例来讲解实现画像产品中“用户人群”和“人群分析”功能对用户群计算秒级响应的一种解决方案。 图3-29中1月20日导入的数据出现异常,则“state”状态字段置1,线上接口扫描该状态记录位后不读取1月20日数据,而是取用最近的1月19日数据。 Elasticsearch中,之后业务人员在画像产品端计算人群或透视分析人群时(如图所示), 通过RESTful API访问 Elasticsearch 进行计算 小结 结合前面几期文章
标签查询服务主要应用在以下业务场景中。单用户画像查询:用户画像查询功能可以通过标签查询服务来实现,给定UserId可以查出该用户的多个标签数值并展示在页面上。 许多运营类平台在展示用户信息的地方,可以借助标签查询服务获取更多元的画像标签数据来补充用户信息、丰富用户的展示维度。 同理,在客户端上判断是否展示某款游戏的入口,可以通过查询用户的“游戏兴趣标签”数值来确定,当兴趣值超过指定阈值时才可以显示游戏入口。算法工程:用户画像标签也属于算法特征,可直接应用到算法模型训练中。 推荐系统架构设计中一般会使用特征池存储推荐工程常用的特征和画像数据,借助标签查询服务也可以补充完善该部分数据。 "province:uid:%s", dataMap.get("user_id")); redisClient.set(key, dataMap.get("province")); } }}以上介绍了3种读取标签
前言 上一篇文章已经为大家介绍了 MySQL 在用户画像的标签数据存储中的具体应用场景,本篇我们来谈谈 HBase 的使用! 在该场景中可通过画像系统实现对应功能。 业务逻辑上,渠道运营人员通过组合用户标签(如“未注册用户”和“安装距今天数”小于××天)筛选出对应的用户群,然后选择将对应人群推送到“广告系统”,这样每天画像系统的ETL调度完成后对应人群数据就被推送到 3. 工程化案例 运营人员在画像系统中根据业务规则定义组合用户标签筛选出用户群,并将该人群上线到广告系统中。 ,另一方面可以支持单个用户标签的查询,例如查看某 id 用户身上的标签,以便运营人员决定是否对其进行运营操作。
分享嘉宾:王琛@神策数据 编辑整理:冯露 出品平台:DataFunTalk 导读:用户画像是建立在数据基础之上的用户模型,是产品改进、精准营销等业务场景中不可或缺的重要基础。 而构建用户画像的过程就是要给用户打上各种维度的标签,并基于标签进行定性或定量分析。这其中,建设灵活、全面、高效的标签体系是工作的重中之重。 自动化的业务系统能更有效的利用这些用户标签,从而发挥更巨大的威力。 3. 为什么常见的标签体系用不起来? 如:在规定时间内,完成运营活动中的⾄少 3 项任务,并完成领券下单转化的,则标记为「价格敏感型⽤户」。 4. 标签平台的技术需求 ? 3. 基于有限流的标签计算 所以在我们的系统里面,首先会做一套批量离线的标签处理引擎,依赖的是我们底层比较稳定的数据结构。
Hive数据仓库 建立用户画像首先需要建立数据仓库,用于存储用户标签数据。Hive是基于Hadoop的数据仓库工具,依赖于HDFS存储数据,提供的SQL语言可以查询存储在HDFS中的数据。 在画像系统中主要使用Hive作为数据仓库,开发相应的维度表和事实表来存储标签、人群、应用到服务层的相关数据。 分区存储 如果将用户标签开发成一张大的宽表,在这张宽表下放几十种类型标签,那么每天该画像宽表的ETL作业将会花费很长时间,而且不便于向这张宽表中新增标签类型。 例如,在画像产品中,输入用户id后通过直接查询该表,解析标签id和对应的标签权重后,即可在前端展示该用户的相关信息 ID-MAP 开发用户标签的时候,有项非常重要的内容——ID-MApping,即把用户不同来源的身份标识通过数据手段识别为同一个主体 where userid='32101029' and start_date<='20190801' and end_date>='20190801' 上图可看出用户'32101029'在历史中曾登录过3个设备
3、按照标签的来源渠道和生成方式不同,可以分为基础标签、业务标签、智能标签。 基础标签主要是指对用户基础特征的描述,比如:姓名、性别、年龄、身高、体重等。 (3)标签命名&赋值 我们用一张图来说明一下命名和赋值的差别,只要在构建用户标签的过程种,有意识的区别标签命名和赋值足矣,不再赘述。 ? 3、标签体系结构分类 一般来说,设计一个标签体系有3种思路,分别是:(1)结构化标签体系;(2)半结构化标签体系;(3)非结构化标签体系。 下图是Bluekai聚合多家数据形成的半结构化标签体系。 ? (3)非结构化标签体系 非结构化,就是各个标签就事论事,各自反应各自的用户兴趣,彼此之间并无层级关系,也很难组织成规整的树状结构。 (3)数据挖掘:以用户画像为基础构建推荐系统、搜索引擎、广告投放系统,提升服务精准度。