在数据的基建和应用层面,除了重视数据分析外,也越来越重视数据资产在更多业务场景中的应用,标签画像的建设和应用就是其中一类很常见的需求和期望。 从对业务的价值来说,标签和画像是类似中间层的系统模块,具体来说,数据资产本质上是一些采集、采购所获得的数据源,但企业希望在数据源的基础上,实现资产变现,而且不断扩大资产价值。 很多企业都意识到,这个中间层就是标签画像。 下面主要介绍了企业做标签画像的目的,重点阐述标签和画像的应用场景及应用流程,构建标签和画像体系的实操方法论,最后给出了行业案例。
在数据的基建和应用层面,除了重视数据分析外,也越来越重视数据资产在更多业务场景中的应用,标签画像的建设和应用就是其中一类很常见的需求和期望。 从对业务的价值来说,标签和画像是类似中间层的系统模块,具体来说,数据资产本质上是一些采集、采购所获得的数据源,但企业希望在数据源的基础上,实现资产变现,而且不断扩大资产价值。 很多企业都意识到,这个中间层就是标签画像。 下面这份PPT材料主要介绍了企业做标签画像的目的,重点阐述标签和画像的应用场景及应用流程,构建标签和画像体系的实操方法论,最后给出了行业案例。
需求背景 目前标签平台的技术需求大体归纳如下: 1.灵活可扩展的标签创建规则或者人群分群规则: 我们需要有非常灵活可扩展的标签的规则定义和分组分群。 3.理想标签按天更新,实时标签秒级延迟:对于业务,我们一般的标签可以按照天更新。但考虑未来发展和业界动态,有实时标签的应用和场景需求,计算要求秒级响应,可能在秒级之后做推送,然后触达用户。 二. ,除了对标签元数据(标签名称,标签规则,标签状态)管理外,也对标签计算逻辑相似,或者合并等进行人工介入,进行审核管理。 基于OneId表,用户属性表,用户行为表和标签元数据表对应标签计算加工,产生独立的标签加工任务,避免互相影响; ②. 基于独立标签表,进行宽表加工加速查询,因为使用标签单表的优势:标签更新代价低,保证该标签数据一致性。 缺陷就是查询需要多张表join,性能比较低。
标签实体及ID类型 画像标签需要绑定到实体上面,用户、商品、直播、视频等都可以作为画像的实体。 画像标签借助实体进行表达,比如用户的性别、年龄标签;商品的售价、种类、货源地标签;直播的分类、开播时间段标签;视频的风格、视频时长分段标签等,每一个标签都用于描述某个具体实体。 本书用户画像的开发思路适用任何ID类型,但是为了表达通畅且更有针对性,之后章节主要介绍的是用户这一实体,并且以UserId和DeviceID作为ID类型来描述,其中UserId是数字类型,DeviceId 导入类标签是用户通过数据导入的方式自行构建的标签,比如用户问卷调研结果中反馈正向的用户可以导入到画像平台作为“问卷正向用户”;运营人员将某次运营活动中表现良好的用户上传画像平台构建“某活动优质用户”标签 如性别、教育程度、年龄段、婚育情况、用户兴趣等标签,代表的是用户基本属性,与用户在应用上的使用行为无关。基础属性直接反馈用户本身的信息,在画像平台中使用频率较高,属于画像平台最重要的一类标签数据。
文章目录 一 标签系统体系架构 二 标签模型开发流程 三 标签模型计算逻辑 一 标签系统体系架构 1)、标签数据 标签管理平台中,每个标签开发时,首先需要在管理平台上注册(新建标签:4级标签和5级标签 画像标签表:tbl_profile 存储标签数据时,也将标签数据存储同步存储到Elasticsearch索引中,方便使用标签进行查询用户 基于Elasticsearch为HBase表构建二级索引 二 标签模型开发流程 展示每个标签模型在实际开发时主要流程: 1)、标签管理平台新建标签 123级标签 34级标签 设置相关属性,包含标签的属性字段的值和对应模型字段的值 标签模型对应Spark ”) 自定义外部数据源方式 3)、【DataFrame】业务数据结合属性标签数据,计算标签modelDF 不同类型标签,计算标签方式不同,分为三种类型,规则匹配类型标签、统计类型标签和挖掘类型标签 ,打标签,其中涉及相关计算 4)、【HBase】标签存储将用户标签数据存储到HBase表中,同步到Elasticsearch索引中 a)、存储最新画像标签数据 存储HBase表汇总 b)、同步标签数据到
上文提到了使用画像宽表可以便捷的创建人群,本文介绍人群创建所依赖的另外一种数据组织形式:标签BitMap。 BitMap以上特点都非常适合存储人群数据,也决定了其在画像平台的广泛使用。基于Hive标签数据表可以生成BitMap,图5-10展示了性别和常住省标签生成BitMap的示意图。 生成BitMap会消耗大量的计算和存储资源,如果标签值区分度较小,生成的BitMap数据被使用到的概率较低,是对计算和存储资源的浪费。使用画像宽表还是BitMap要根据业务特点来决定。 BitMap适用的标签类型和业务场景有限,要结合实际的数据进行判断。业界一般使用混合模式,优先通过BitMap进行人群创建,不适用的场景下兜底使用画像宽表进行人群圈选。 采用混合模式要考虑对齐画像宽表和BitMap的标签时间,这增加了工程的实现复杂度。----本文节选自《用户画像:平台构建与业务实践》,转载请注明出处。
用户画像标签体系 用户画像的核心在于给用户“打标签”,每一个标签通常是人为规定的特征标识,用高度精炼的特征描述一类人,例如年龄、性别、兴趣偏好等,不同的标签通过结构化的数据体系整合,就可与组合出不同的用户画像 梳理标签体系是实现用户画像过程中最基础、也是最核心的工作,后续的建模、数据仓库搭建都会依赖于标签体系。 为什么需要梳理标签体系,因为不同的企业做用户画像有不同的战略目的,广告公司做用户画像是为精准广告服务,电商做用户画像是为用户购买更多商品,内容平台做用户画像是推荐用户更感兴趣的内容提升流量再变现,金融行业做用户画像是为了寻找到目标客户的同时做好风险的控制 该类标签构成了用户画像的基础; 规则类标签:该类标签基于用户行为及确定的规则产生。例如对平台上“消费活跃”用户这一口径的定义为近30天交易次数>=2。 用户画像体系和标签分类从两个不同角度来梳理标签,用户画像体系偏战略和应用,标签分类偏管理和技术实现侧。
用户画像标签体系 用户画像的核心在于给用户“打标签”,每一个标签通常是人为规定的特征标识,用高度精炼的特征描述一类人,例如年龄、性别、兴趣偏好等,不同的标签通过结构化的数据体系整合,就可与组合出不同的用户画像 梳理标签体系是实现用户画像过程中最基础、也是最核心的工作,后续的建模、数据仓库搭建都会依赖于标签体系。 为什么需要梳理标签体系,因为不同的企业做用户画像有不同的战略目的,广告公司做用户画像是为精准广告服务,电商做用户画像是为用户购买更多商品,内容平台做用户画像是推荐用户更感兴趣的内容提升流量再变现,金融行业做用户画像是为了寻找到目标客户的同时做好风险的控制 该类标签构成了用户画像的基础; 规则类标签:该类标签基于用户行为及确定的规则产生。例如对平台上“消费活跃”用户这一口径的定义为近30天交易次数>=2。 用户画像体系和标签分类从两个不同角度来梳理标签,用户画像体系偏战略和应用,标签分类偏管理和技术实现侧。
为什么需要用户画像 用户画像的核心工作是为用户打标签,打标签的重要目的之一是为了让人能够理解并且方便计算机处理,如,可以做分类统计:喜欢红酒的用户有多少?喜欢红酒的人群中,男、女比例是多少? 如何构建用户画像 一个标签通常是人为规定的高度精炼的特征标识,如年龄段标签:25~35岁,地域标签:北京,标签呈现出两个重要特征:语义化,人能很方便地理解每个标签含义。 人制定标签规则,并能够通过标签快速读出其中的信息,机器方便做标签提取、聚合分析。所以,用户画像,即:用户标签,向我们展示了一种朴素、简洁的方法用于描述用户信息。 用户画像的标签体系 从技术层面看,用户画像的过程比较乏味。我们今天来讨论一个看起来最简单、却最难以把握精髓的环节:如何设计用户画像的标签体系。 什么是标签体系简单说就是你把用户分到多少个类里面去。 笔者见过很多做用户画像的产品经理,往往醉心于设计一个伟大、 光荣、正确的标签体系,这往往是形式主义的调调儿。
保证标签数据质量是画像平台建设不可或缺的一个重要环节,只有保证产出高质量的标签,画像平台上的功能才有价值,这也是人群圈选准确性和画像分析结论有效性的前提和基础。如何通过工程化的方式评估一个标签的质量? 画像平台常见监控为标签主键唯一性检测,指定标签数据表中不能有重复的主键ID一个用户只能有一条兴趣爱好标签数据,如果兴趣爱好标签中出现了重复UserId,说明产出有异常,需要确保标签数据主键唯一有效性度量数据是否符合约定的类型 画像平台需要检测标签实际内容是否与注册类型匹配;定期检测标签值的占比波动是否有变化;数值型标签要根据业务特点,判断取值是否异常手机操作系统,标签注册类型是字符串,如果检测发现标签值是数值类型,需要校验是否正常 画像平台需要检测各类标签是否有空值,默认情况需要给标签设置默认值;需要校验标签覆盖度,即有标签数据的用户占整体用户的比例用户南北方标签,覆盖历史全量用户,且默认值是未知,需要检测该标签覆盖率是否100% 画像平台标签数据质量检测,除了通过自行编写代码实现之外也可以选择上述开源工具实现。----本文节选自《用户画像:平台构建与业务实践》,转载请注明出处。
本节将结合实际案例介绍各类画像标签的生产方式。 离线标签将分别介绍统计类标签、规则类标签和导入类标签,实时标签和挖掘类标签也会结合示例做简要介绍,本节部分环节给出了核心Hive SQL语句及Java代码示例。 比如A调研问卷中的有效用户可以上传到画像平台并构建一个新的标签“A调研重点关注用户”;在B游戏发版后,数据分析师找到了一批潜在的优质用户作为后续重点运营群体,这些用户可以导入到画像平台并构建一个新的标签 实时标签 在标签分类和标签存储章节都介绍了实时标签,实时标签可以保证标签数据的实时性,能够反馈标签的最新数值。 Dataset<Row> results = jsql.sql("SELECT features, label, probability, prediction FROM results"); 本文节选自《用户画像
用户画像受到热宠,不搞用户画像都不好意思说在做精细化运营了。各种用户画像标签体系建设、从0到1教你构建用户画像之类的文章广泛传播。 前几天听到有同学在规划CDP平台时,认为画像即标签,标签就是画像,用户画像和用户分群是同一主体的不同叫法,产品架构设计时,边界不清,功能交错。 标签体系一是要便于扩展,二是要便于理解和使用。标签体系比画像标签更全面、丰富,利用基础标签得到画像标签也是标签体系的输入。 画像标签是经过抽象化的数据标签,可用于用户个人画像、群体画像分析,也可作为用户圈选的标签条件。 用户分群的用户筛选条件可以来自于数据标签和画像标签,应用场景包括:人群画像分析、精细化运营和精准营销。
前言 上一篇文章已经为大家介绍了 Hive 在用户画像的标签数据存储中的具体应用场景,本篇我们来谈谈MySQL的使用! 原著作者:赵宏田 来源:《用户画像方法论与工程化解决方案》 ---- MySQL作为关系型数据库,在用户画像中可用于元数据管理、监控预警数据、结果集存储等应用中。 Web端产品读写MySQL数据库会有更快的速度,方便标签的定义、管理。 在介绍用户画像产品化的时候,我们会介绍元数据录入和查询功能,将相应的数据存储在MySQL中。 从整个画像调度流的关键节点来看,需要监控的环节主要包括对每天标签的产出量、服务层数据同步情况的监控等主要场景。下图展示的是用户画像调度流主要模块。 在打通画像数据与线上业务系统时,需要考虑将存储在Hive中的用户标签相关数据同步到各业务系统,此时MySQL可用于存储结果集。
前言 上一篇文章已经为大家介绍了 MySQL 在用户画像的标签数据存储中的具体应用场景,本篇我们来谈谈 HBase 的使用! 在该场景中可通过画像系统实现对应功能。 业务逻辑上,渠道运营人员通过组合用户标签(如“未注册用户”和“安装距今天数”小于××天)筛选出对应的用户群,然后选择将对应人群推送到“广告系统”,这样每天画像系统的ETL调度完成后对应人群数据就被推送到 工程化案例 运营人员在画像系统中根据业务规则定义组合用户标签筛选出用户群,并将该人群上线到广告系统中。 ,另一方面可以支持单个用户标签的查询,例如查看某 id 用户身上的标签,以便运营人员决定是否对其进行运营操作。
前言 上一篇文章已经为大家介绍了 HBase 在用户画像的标签数据存储中的具体应用场景,本篇我们来谈谈 Elasticsearch 的使用! 原著作者:赵宏田 来源:《用户画像方法论与工程化解决方案》 ---- Elasticsearch存储 Elasticsearch简介 Elasticsearch 是一个开源的分布式全文检索引擎, 工程化案例 下面通过一个工程案例来讲解实现画像产品中“用户人群”和“人群分析”功能对用户群计算秒级响应的一种解决方案。 如图所示,在标签调度完成且通过校验后(图中的“标签监控预警”任务执行完成后),将标签数据同步到Elasticsearch中。 Elasticsearch中,之后业务人员在画像产品端计算人群或透视分析人群时(如图所示), 通过RESTful API访问 Elasticsearch 进行计算 小结 结合前面几期文章
标签查询服务主要应用在以下业务场景中。单用户画像查询:用户画像查询功能可以通过标签查询服务来实现,给定UserId可以查出该用户的多个标签数值并展示在页面上。 许多运营类平台在展示用户信息的地方,可以借助标签查询服务获取更多元的画像标签数据来补充用户信息、丰富用户的展示维度。 同理,在客户端上判断是否展示某款游戏的入口,可以通过查询用户的“游戏兴趣标签”数值来确定,当兴趣值超过指定阈值时才可以显示游戏入口。算法工程:用户画像标签也属于算法特征,可直接应用到算法模型训练中。 推荐系统架构设计中一般会使用特征池存储推荐工程常用的特征和画像数据,借助标签查询服务也可以补充完善该部分数据。 图片----本文节选自《用户画像:平台构建与业务实践》,转载请注明出处。
分享嘉宾:王琛@神策数据 编辑整理:冯露 出品平台:DataFunTalk 导读:用户画像是建立在数据基础之上的用户模型,是产品改进、精准营销等业务场景中不可或缺的重要基础。 而构建用户画像的过程就是要给用户打上各种维度的标签,并基于标签进行定性或定量分析。这其中,建设灵活、全面、高效的标签体系是工作的重中之重。 主要内容包括: 用户标签及其应用场景 标签生产平台的需求 批流一体的标签生产架构 总结 01 用户标签及其应用场景 1. 什么是用户标签 ? 简单说,就是对用户的某个维度特征的描述。 离线标签按天更新,实时标签秒级延迟:对于业务,我们一般的标签可能是按天更新的,例行标签。 整体的架构就像这张图一样,在我们的标签管理控制台这一层,其实是对标签规则做了一个划分,在这里会识别当前要算的这个标签,到底是一个离线标签还是一个实时标签比较好?
一、 什么是用户画像 用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。 例如:下表中,地市、型号在标签体系中相对于省份、品牌,是叶子标签。 ? 用户画像标签体系创建后一般要包含以下几个方面的内容 ? (1)标签分类 用户画像标签可以分为基础属性标签和行为属性标签。 ? 即便你成功了建立用户画像的标签体系,也不意味着你就开启了用户画像的成功之路,因为有很大的可能是这些标签根本无法获得,或者说无法赋值。 4、用户画像标签层级的建模方法 用户画像的核心是标签的建立,用户画像标签建立的各个阶段使用的模型和算法如下图所示。 ? ? 原始数据层。 数据建模:基于标签体系的用户画像建模主要是针对用户画像的建模和产品的建模。
Hive数据仓库 建立用户画像首先需要建立数据仓库,用于存储用户标签数据。Hive是基于Hadoop的数据仓库工具,依赖于HDFS存储数据,提供的SQL语言可以查询存储在HDFS中的数据。 在画像系统中主要使用Hive作为数据仓库,开发相应的维度表和事实表来存储标签、人群、应用到服务层的相关数据。 分区存储 如果将用户标签开发成一张大的宽表,在这张宽表下放几十种类型标签,那么每天该画像宽表的ETL作业将会花费很长时间,而且不便于向这张宽表中新增标签类型。 下面介绍一种用户标签分表、分区存储的解决方案。 根据标签指标体系的人口属性、行为属性、用户消费、风险控制、社交属性等维度分别建立对应的标签表进行分表存储对应的标签数据。如下图所示。 例如,在画像产品中,输入用户id后通过直接查询该表,解析标签id和对应的标签权重后,即可在前端展示该用户的相关信息 ID-MAP 开发用户标签的时候,有项非常重要的内容——ID-MApping,即把用户不同来源的身份标识通过数据手段识别为同一个主体
摘要: 用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息,提供了足够的数据基础,奠定了大数据时代的基石。 微博大数据经过近两年不断地调整、磨合、优化,针对社交媒体特性,研发构建了一整套完整的用户画像体系。 同时,大数据的用户画像体系已应用于微博众多的业务场景中,并随着微博业务的发展不断完善升级,将“大数据”概念落地落实。 为了方便与大家交流探讨,大数据用户团队特别整理了用户画像系列文章,主要从微博的角度出发,重点介绍社交媒体平台中用户的特性,微博业务发展中用户的建模刚需,以及不同纬度建模过程中遇到的问题和解决方案。 相对于用户能力标签,用户兴趣标签涉及到的上层业务更加广泛,依赖的数据也更加复杂多变,在下一篇用户画像系列文章中,我们将会详细介绍用户兴趣标签的挖掘流程。