首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏张叔叔讲互联网

    画像平台人群创建方式-规则人群创建

    规则圈选是按照指定条件从画像数据中找到满足要求的用户并沉淀为人群的一种常见的人群创建方式。所谓的规则就是条件的组合,比如北京市男性用户,最近一周平均在线时长介于2到10分钟之间的中老年用户。 人群创建引擎读取到规则人群配置信息后,首先判断是否适合通过BitMap实现人群圈选,如果适合,可以获取标签的BitMap在内存中进行交、并、差操作;不适合BitMap实现的可以兜底通过ClickHouse Hive表中的人群数据主要用于离线数据分析场景,很多业务使用人群之后需要通过人群结果表进行效果分析。图5-13展示了人群结果表的表结构设计,人群crowd_id作为分区键,分区下包含该人群所有用户。 每一个人群最终都会存储在Hive表和OSS中,但是不同人群创建方式优先产出的人群存储类型不同,所以画像平台需要支持Hive和OSS之间数据的相互转换。 ,在内存中构建BitMap后存储到OSS中;BitMapToHive需要将内存中的数据快速写入Hive表,主要分为写入本地文件、上传到HDFS以及加载成Hive表三个步骤,该过程与第3章中通过文件导入创建标签类似

    2K00编辑于 2023-10-18
  • 来自专栏张叔叔讲互联网

    画像平台人群创建方式-导入人群创建

    Hive导入和SQL导入方式创建人群数据直接存储到Hive表中,后续需要通过HiveToBitmap将人群数据写入BitMap并存储在OSS中。 通过TXT或者CSV文件创建人群,其文件中只需要保存一列UserId数据。文件通过接口上传到服务端后可以解析其中的每一行数据,数据经处理后可以直接写入BitMap并存储到OSS中。 图5-22展示了通过上传文件创建人群的流程图,其中展示了DeviceId文件上传的处理流程,DeviceId需要做一次ID转换之后再写入人群BitMap。 文件上传后同步创建人群耗时比较久,为了提高用户体验,创建过程可以实现异步处理,即通过接口上传的文件先保存到服务端,然后异步解析文件并创建人群。 导入人群是画像平台最常用的人群创建方式之一,其实现了将各类数据源沉淀为人群的功能,支持更灵活的人群创建方式,拓展了画像平台数据范围。

    90610编辑于 2023-10-19
  • 来自专栏张叔叔讲互联网

    人群LookALike以及挖掘人群创建思路

    人群LookALike是给定种子人群,然后通过技术手段找到与该种子人群相似的用户群体。 图5-26展示了基于向量求LookALike人群的主要流程。图片基于种子人群特征分布计算相似人群。 图片基于分类算法计算相似人群。把种子人群当作正样本,其他非种子人群(或者其他人群)当作负样本,通过训练分类模型计算出满足条件的用户并构建目标人群。 目前也有利用社交网络进行人群LookALike的实践方案,通过好友关系找到种子人群中所有用户的几度好友并构建目标人群。挖掘人群是指定优化目标,借助算法能力找到满足要求的用户并构建人群人群挖掘的思路是先找到训练样本(种子人群),然后通过LookALike的思路扩展种子人群。该方式与人群LookALike不同的是,人群挖掘的结果中可以包含种子人群中的用户数据。

    1.9K30编辑于 2023-10-22
  • 来自专栏张叔叔讲互联网

    人群创建的基础:画像标签BitMap

    ​上文提到了使用画像宽表可以便捷的创建人群,本文介绍人群创建所依赖的另外一种数据组织形式:标签BitMap。 首先基于标签明细数据聚合生成标签值BitMap数据,其执行结果会存储在Hive表中;其次将已经生成的标签值BitMap的Hive表数据写入到ClickHouse表中,该操作可以提高后续查询BitMap的效率;最后在人群创建过程中从数据表中查询出 多个RoaringBitMap可以在内存中直接进行交、并、差操作,最终实现人群创建。 基于宽表中全量用户的明细数据可以实现所有的人群圈选功能,但是采用BitMap方案的人群创建速度相比宽表模式可以提升50%以上。BitMap适用的标签类型和业务场景有限,要结合实际的数据进行判断。 业界一般使用混合模式,优先通过BitMap进行人群创建,不适用的场景下兜底使用画像宽表进行人群圈选。采用混合模式要考虑对齐画像宽表和BitMap的标签时间,这增加了工程的实现复杂度。

    2.5K11编辑于 2023-10-17
  • 来自专栏张叔叔讲互联网

    人群创建的基础:画像宽表

    ​本节主要介绍人群创建所依赖的画像宽表的生成方式。为什么要创建画像宽表?基于原始的标签数据表进行人群圈选有什么问题?如何生成画像宽表?针对这些问题本节会给出详细解答。 ,如果创建过程直接关联到每个标签的源数据表,那么任何源数据表的改动或者异常都将影响后续的人群创建功能。 通过分散表创建人群将造成标签数据表的权限申请、审批、变更流程异常繁琐 画像平台作为一个“用户”申请所有标签数据表权限来构建一张宽表,普通用户创建人群的过程只与宽表交互,避免了用户直接申请所有上游数据表权限的问题 数据解耦 人群创建语句涉及多张Hive数据表,当数据表名称或者列名称变更时,需要修改所有包含该标签的人群创建语句。 要将图5-4所示的Hive表写入ClickHouse中,首先要创建ClickHouse数据表,其创建表语句如下所示。

    1.7K20编辑于 2023-10-16
  • 来自专栏张叔叔讲互联网

    画像平台人群创建方式-明细行为圈选

    虽然画像数据是浓缩精简后的核心数据,但在很多人群圈选场景中依赖行为明细数据,比如运营人员希望找出2022-08-15 10:00:00到2022-08-15 12:00:00之间通过手机客户端点赞了某篇文章的用户

    1.5K40编辑于 2023-10-21
  • 来自专栏小七的各种胡思乱想

    AB实验人群定向HTE模型4 - Double Machine Learning

    Hetergeneous Treatment Effect旨在量化实验对不同人群的差异影响,进而通过人群定向/数值策略的方式进行差异化实验,或者对实验进行调整。

    3.8K00发布于 2020-02-18
  • 来自专栏萌海无涯

    Django学习创建应用(4

    Django 提供了个实用工具可以自动生成一个应用的基本目录架构,因此你可以专注于编写代码而不是去创建目录。 说起来搭建应用 ,这个应用 是干嘛的? 项目与应用之间有什么不同之处? 打个比方我们创建项目后,就跟我们设计房子装修一样,完全是一个毛坯房!! 我们需要对房子来设计!这个房子可以是两室一厅或者三室一厅,完全我们自己想象! 创建应用: 理解了应用之后我们就可以学习在Django怎么创建应用了! 注意:运行命令的目录同样需要与 manage.py 同目录。 在 Django 同样也是需要创建应用命令: # python manage.py startapp 应用名字python manage.py startapp polls 这将会创建一个 polls models.py :创建应用程序数据表模型(对应数据库的相关操作)。 tests.py :创建 Django 测试。 views.py :控制向前端显示哪些数据。

    61230发布于 2019-08-30
  • 来自专栏机器学习、深度学习

    人群密度估计

    Counting Varying Density Crowds Through Attention Guided Detection and Density Estimation CVPR2018 本文针对人群密度问题 将 检测方法和回归方法结合到一起,以此来提升人群密度估计精度 人群密度估计问题目前主要的方法有基于检测的和基于回归的方法。 在人群密度小的时候,基于检测的方法效果更好。在人群密度较大的时候,基于回归方法的效果比较好。 ? ? 本文的思路就是将 检测方法和回归方法结合起来,各取所长。 4 Model Learning 这里主要定义了损失函数, 将其定义为 multi-task learning problem ? ? ? ?

    1.5K40发布于 2019-05-26
  • 来自专栏用户画像

    相似人群画像算法

    一、数据源 1、相似人群数据存在TDW库中,数据字典说明: CREATE TABLE sim_people_tdw_tbl( uid STRING COMMENT 'reader id', ', update_date STRING COMMENT 'update_date' ) 字段 类型 含义 uid string 用户标识 sim_uids string 与uid喜好相似的人群 ,格式为用户编号:相同阅读量,相似用户之间以逗号分隔 sim_num BIGINT 相似人群的人数 update_date string 数据日期 2、基础用户画像存在MongoDB中 Image [ 相似人群字典表 :return: 相似度最高的相似人群 """ user_similarity_list = sorted(cluster_dic.iteritems(), key : 相似人群的相似度字典表 :return: 相似人群画像字典表 """ cluster_profile_rs = {} for sim_user_obj in sim_users_profile_array

    2.6K61发布于 2018-07-19
  • 来自专栏机器学习、深度学习

    人群密度估计

    该网络在几个常用的公开人群密度估计数据库上取得了不错的效果。 1 Introduction 拥挤场景解析的发展从简单的人群数值估计到 人群密度图估计,人群密度图可以提供额外的信息,因为同样数量的人可以分布在不同的位置,如下图所示 ? 生成准确的人群分布图挑战性比较大,其中一个主要的困难就是离散化的问题,人在图像中不是只占用一个像素,密度图需要保持局部邻域的连续性。其他的困难包括场景的多样性,相机角度的多样性。 Multi-column CNNs 比较难训练 2)Multi-column CNNs 引入了冗余的网络结构,如表1 所示 3) 需要 density level classifier ,这样计算量比较大 44 Experiments 4.1. Evaluation metrics ? ? ? ? ?

    1.7K30发布于 2019-05-26
  • 来自专栏数据库

    Neo4j 创建关系

    ​Neo4j 创建关系在 Noe4j 中,关系是我们用来连接图的两个节点的元素。 这些关系具有数据的方向、类型和形式模式。 本章教你如何建立关系在现有节点之间创建关系使用标签和属性创建关系建立关系我们可以使用 CREATE 子句创建关系。 语法以下是使用 CREATE 子句创建关系的语法。 RETURN Jiyik, Chi 在现有节点之间创建关系您还可以使用 MATCH 子句在现有节点之间创建关系。语法以下是使用 MATCH 子句创建关系的语法。 创建完整路径在 Neo4j 中,路径是使用连续关系形成的。 可以使用 create 子句创建路径。语法以下是使用 CREATE 子句在 Neo4j 中创建路径的语法。

    84610编辑于 2024-06-20
  • 来自专栏机器学习、深度学习

    人群分析、人群计数 开源代码文献及数据库

    Scale-adaptive Convolutional Nerual Network https://github.com/miao0913/SaCNN-CrowdCounting-Tencent_Youtu 人群分析 Towards perspective-free object counting with deep learning ECCV2016 https://github.com/gramuah/ccnn 人群计数 Density Estimation for Crowd Counting AVSS 2017 https://github.com/svishwa/crowdcount-cascaded-mtl 人群计数 /hosseinm/med Panic,Fight,Congestion,Obstacle ,Neutral 人群异常检测 Anomaly Detection and Localization in Crowded Scenes 数据库 http://www.svcl.ucsd.edu/projects/anomaly/ 人群分析 Deep Spatio-Temporal Residual

    2.1K70发布于 2018-01-03
  • 来自专栏张叔叔讲互联网

    人群数据如何对外输出

    人群创建成功后会存储在Hive表和OSS中,画像平台用户有时需要拉取人群数据并应用到一些业务中。 比如用户希望在Push平台上针对指定人群下的所有用户推送消息,此时可以使用画像平台接口拉取人群数据;在七夕活动中,运营人员投放使用了多个人群,为了分析不同人群的转化效果,此时需要将人群结果的Hive表提供给数据分析师使用 获取人群基本信息接口主要用于查询人群基本信息,其中包括人群名称、用户数量、人群状态、创建者、创建规则等,该接口可以使用缓存来提高接口性能。 当业务方需要感知人群状态变化时,可以定期调用人群基本信息接口,对比人群前后状态就可以知道人群状态是否变更。比如在Push平台上置了一个定时更新人群,当人群数据更新后需要再次给人群下的用户推送消息。 此时Push侧需要及时感知人群状态变化,当发现人群重新创建成功后再次进行Push操作。

    72150编辑于 2023-10-23
  • 来自专栏机器学习AI算法工程

    受众行为分析与人群定向

    “物以类聚,人以群分”这句古语不仅揭示了物与人的自组织趋向,更隐含了“聚类”和“人群”之间的内在联系。 例如在现代数字广告投放系统中,最为关键的“人群定向”功能正是通过“聚类”算法得以实现的。 明白了这一点,也就触摸到了人群定向的天花板–不可能百分之百精准。 如何从广泛的受众中提炼目标人群呢? 正是依靠受众行为分析。 下面我们以易传媒的广告投放算法为例,浅析一下怎样由预先标注的关键词标签,一步步建立完整的受众行为分析模型,挖掘出具有相似行为特征的人群,提炼人群的属性特征,最终进行最合适的广告投放的。 定义4:聚类效果指标 ? 该指标R^2的取值范围在0与1之间,它总是随着分类的个数减少而变小,而类的个数进一步减少不应以R^2大为减小作为代价。 人群定向投放 作为人群定向广告正式投放前的最后一步,受众聚类和结构化的人群分类将进行匹配映射。这种映射是利用二者标签集合的重合度来实现的。

    2.5K70发布于 2018-03-14
  • 来自专栏技术杂记

    使用XtraBackup创建mysql slave4

    到此salve的软件环境就已经准备好了 ---- 注意事项 1.slave上的数据存储位置有足够的空间,如果没有最好链接到一个有空间的位置 2.slave上使用master的配置文件,可以将有些大内存使用参数酌情改小 3.注意修改 server-id ,不能和master一样 ---- 备份master数据库 使用前面的方法在master上安装xtrabackup 报错1 [root@master-qa ~]# /usr/bin/innobackupex --defaults-file=/etc/my.cn

    73910编辑于 2022-05-04
  • 来自专栏云深之无迹

    DonkeyCar源码阅读.4(项目文件创建

    DonkeyCar源码阅读.1(简单安装+创建系统) DonkeyCar源码分析.2(官方硬件+相机处理) DonkeyCar源码阅读.3(操作记录+若干图像处理) donkeycar有一点做的很好 返回一个路径的文件系统的表示 在内部的话,是使用这个来实现 join是拼接多个路径,其实是加进去 包,模板,帮助文件 新生成一个目录 这个函数是把现在的目录补全返回 先来打印这个目录: 如果没有的话,就创建一个新的目录 ,之后返回 加载一个配置的文件 把配置文件的和路径补全,接着判断一下路径是不是真的创建成功。

    66420编辑于 2022-08-05
  • 来自专栏机器学习、深度学习

    人群计数--Mixture of Counting CNNs

    of CNNs Specialized to Specific Appearance for Crowd Counting https://arxiv.org/abs/1703.09393 本文是人群计数的 ,不是人群密度估计。 这里主要的思路是针对不同场景的 scale and congestion 造成图像块的 Appearance 差别很大,这里我们使用多个小 CNN 来估计总人群。 另外适应一个大点的 CNN 对 图像块进行分类,这种分类主要依据人群密度大小。类别的概率作为每个小 CNN 的权重。 Appearance 的差异性 ?

    71370发布于 2018-01-03
  • 来自专栏数据库

    Neo4j CQL 创建节点

    我们可以使用 CREATE 子句在 Neo4j 中创建节点。 创建单个节点创建多个节点创建一个带标签的节点创建具有多个标签的节点创建具有属性的节点返回创建的节点创建单个节点我们可以通过简单地在 CREATE 子句中指定要创建的节点的名称来在 Neo4j 中创建一个节点 执行时,此查询显示创建的节点,如以下屏幕截图所示。创建多个节点Neo4j CQL 的 create 子句也用于同时创建多个节点。 为此,我们需要传递要创建的节点的名称,以逗号分隔。 语法以下是使用 CREATE 子句创建多个节点的语法。CREATE (node1),(node2)示例以下是在 Neo4j 中创建多个节点的示例 Cypher 查询。 执行时,此查询显示创建的节点,如以下屏幕截图所示。创建带标签的节点Neo4j 中的标签用于使用标签对节点进行分组(分类)。 我们可以使用 CREATE 子句为 Neo4j 中的节点创建标签。

    90410编辑于 2024-06-21
  • 选址、调研所需周边人群画像怎么获取?区域人群画像分布API接入指南!

    在传统商业决策中,有多少资源因“目标人群”画像模糊而被浪费?多少营销活动因缺乏精准人群触达而效果不佳?多少市场调研因无法获取核心客群画像数据,导致策略偏离实际? Q4)、多种网格大小面积下的地理区域,时间、空间两个维度都能更自由,适配多样化分析需求。 此外,你还能选择10类人群,获取其11类画像数据,涵盖基础画像(如年龄、性别)和各种偏好画像(如消费、兴趣),全面覆盖人群分析所需维度。 API获取指南及应用案例这个API主要来源是一个新上线的数据开放平台,提供很多人群、客流类 API(人群热力图、人群画像、客流趋势、客流画像等),比较小众,但包含的API还是很实用的。 若您的业务也需构建人群画像、区域洞察或客流分析等能力,“区域人群画像分布API”将是理想选择。

    34410编辑于 2025-10-17
领券