首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏张叔叔讲互联网

    画像平台人群创建方式-规则人群创建

    规则圈选是按照指定条件从画像数据中找到满足要求的用户并沉淀为人群的一种常见的人群创建方式。所谓的规则就是条件的组合,比如北京市男性用户,最近一周平均在线时长介于2到10分钟之间的中老年用户。 人群创建引擎读取到规则人群配置信息后,首先判断是否适合通过BitMap实现人群圈选,如果适合,可以获取标签的BitMap在内存中进行交、并、差操作;不适合BitMap实现的可以兜底通过ClickHouse Hive表中的人群数据主要用于离线数据分析场景,很多业务使用人群之后需要通过人群结果表进行效果分析。图5-13展示了人群结果表的表结构设计,人群crowd_id作为分区键,分区下包含该人群所有用户。 每一个人群最终都会存储在Hive表和OSS中,但是不同人群创建方式优先产出的人群存储类型不同,所以画像平台需要支持Hive和OSS之间数据的相互转换。 ,在内存中构建BitMap后存储到OSS中;BitMapToHive需要将内存中的数据快速写入Hive表,主要分为写入本地文件、上传到HDFS以及加载成Hive表三个步骤,该过程与第3章中通过文件导入创建标签类似

    2K00编辑于 2023-10-18
  • 来自专栏张叔叔讲互联网

    画像平台人群创建方式-导入人群创建

    Hive导入和SQL导入方式创建人群数据直接存储到Hive表中,后续需要通过HiveToBitmap将人群数据写入BitMap并存储在OSS中。 通过TXT或者CSV文件创建人群,其文件中只需要保存一列UserId数据。文件通过接口上传到服务端后可以解析其中的每一行数据,数据经处理后可以直接写入BitMap并存储到OSS中。 图5-22展示了通过上传文件创建人群的流程图,其中展示了DeviceId文件上传的处理流程,DeviceId需要做一次ID转换之后再写入人群BitMap。 文件上传后同步创建人群耗时比较久,为了提高用户体验,创建过程可以实现异步处理,即通过接口上传的文件先保存到服务端,然后异步解析文件并创建人群。 导入人群是画像平台最常用的人群创建方式之一,其实现了将各类数据源沉淀为人群的功能,支持更灵活的人群创建方式,拓展了画像平台数据范围。

    90610编辑于 2023-10-19
  • 来自专栏张叔叔讲互联网

    人群LookALike以及挖掘人群创建思路

    人群LookALike是给定种子人群,然后通过技术手段找到与该种子人群相似的用户群体。 图5-26展示了基于向量求LookALike人群的主要流程。图片基于种子人群特征分布计算相似人群。 图片基于分类算法计算相似人群。把种子人群当作正样本,其他非种子人群(或者其他人群)当作负样本,通过训练分类模型计算出满足条件的用户并构建目标人群。 目前也有利用社交网络进行人群LookALike的实践方案,通过好友关系找到种子人群中所有用户的几度好友并构建目标人群。挖掘人群是指定优化目标,借助算法能力找到满足要求的用户并构建人群人群挖掘的思路是先找到训练样本(种子人群),然后通过LookALike的思路扩展种子人群。该方式与人群LookALike不同的是,人群挖掘的结果中可以包含种子人群中的用户数据。

    1.9K30编辑于 2023-10-22
  • 来自专栏张叔叔讲互联网

    人群创建的基础:画像宽表

    ​本节主要介绍人群创建所依赖的画像宽表的生成方式。为什么要创建画像宽表?基于原始的标签数据表进行人群圈选有什么问题?如何生成画像宽表?针对这些问题本节会给出详细解答。 ,如果创建过程直接关联到每个标签的源数据表,那么任何源数据表的改动或者异常都将影响后续的人群创建功能。 为了实现人群创建功能,用户需要申请所有标签数据表权限。当表权限变更时,还需要及时同步每一个用户再次申请权限。 通过分散表创建人群将造成标签数据表的权限申请、审批、变更流程异常繁琐 画像平台作为一个“用户”申请所有标签数据表权限来构建一张宽表,普通用户创建人群的过程只与宽表交互,避免了用户直接申请所有上游数据表权限的问题 数据解耦 人群创建语句涉及多张Hive数据表,当数据表名称或者列名称变更时,需要修改所有包含该标签的人群创建语句。

    1.7K20编辑于 2023-10-16
  • 来自专栏张叔叔讲互联网

    人群创建的基础:画像标签BitMap

    ​上文提到了使用画像宽表可以便捷的创建人群,本文介绍人群创建所依赖的另外一种数据组织形式:标签BitMap。 首先将指定标签值下的所有用户聚合后生成BitMap,然后基于这些BitMap执行交、并、差操作实现人群筛选。图5-8展示了基于宽表和BitMap进行人群圈选的功能示意图,两种方式最终产出的人群相同。 多个RoaringBitMap可以在内存中直接进行交、并、差操作,最终实现人群创建。 基于宽表中全量用户的明细数据可以实现所有的人群圈选功能,但是采用BitMap方案的人群创建速度相比宽表模式可以提升50%以上。BitMap适用的标签类型和业务场景有限,要结合实际的数据进行判断。 业界一般使用混合模式,优先通过BitMap进行人群创建,不适用的场景下兜底使用画像宽表进行人群圈选。采用混合模式要考虑对齐画像宽表和BitMap的标签时间,这增加了工程的实现复杂度。

    2.5K11编辑于 2023-10-17
  • 来自专栏张叔叔讲互联网

    画像平台人群创建方式-明细行为圈选

    虽然画像数据是浓缩精简后的核心数据,但在很多人群圈选场景中依赖行为明细数据,比如运营人员希望找出2022-08-15 10:00:00到2022-08-15 12:00:00之间通过手机客户端点赞了某篇文章的用户

    1.5K40编辑于 2023-10-21
  • 来自专栏机器学习、深度学习

    人群密度估计

    Counting Varying Density Crowds Through Attention Guided Detection and Density Estimation CVPR2018 本文针对人群密度问题 将 检测方法和回归方法结合到一起,以此来提升人群密度估计精度 人群密度估计问题目前主要的方法有基于检测的和基于回归的方法。 在人群密度小的时候,基于检测的方法效果更好。在人群密度较大的时候,基于回归方法的效果比较好。 ? ? 本文的思路就是将 检测方法和回归方法结合起来,各取所长。

    1.5K40发布于 2019-05-26
  • 来自专栏用户画像

    相似人群画像算法

    /usr/bin/python2.7 # -*- coding: utf8 -*- import decimal import time import math import sys import os import Collection from decimal import Decimal import datetime reload(sys) sys.setdefaultencoding("utf-8" 相似人群字典表 :return: 相似度最高的相似人群 """ user_similarity_list = sorted(cluster_dic.iteritems(), key all_uid_list = [] uid_sim_map = {} # uid_sim_map["1_291083852"] = ["1_757155427:8" : 相似人群的相似度字典表 :return: 相似人群画像字典表 """ cluster_profile_rs = {} for sim_user_obj in sim_users_profile_array

    2.6K61发布于 2018-07-19
  • 来自专栏机器学习、深度学习

    人群密度估计

    该网络在几个常用的公开人群密度估计数据库上取得了不错的效果。 1 Introduction 拥挤场景解析的发展从简单的人群数值估计到 人群密度图估计,人群密度图可以提供额外的信息,因为同样数量的人可以分布在不同的位置,如下图所示 ? 生成准确的人群分布图挑战性比较大,其中一个主要的困难就是离散化的问题,人在图像中不是只占用一个像素,密度图需要保持局部邻域的连续性。其他的困难包括场景的多样性,相机角度的多样性。 以前基于CNN网络的人群密度估计主要采用了 multi-scale architectures,虽然取得了不错的性能,但是存在两个问题:当网络变深的时候, the large amount of training 人群密度估计从方法上来说可以分为三大类:detection-based methods, regression-based methods, and density estimation-based methods

    1.7K30发布于 2019-05-26
  • 来自专栏RabbitMQ实战

    Java8 Stream 创建

    创建流的方法有很多,常见的如: 从Collection集合创建 根据数值范围创建数值流 从一系列值 从数组 从文件 由函数来生成无限流 一、 从Collection集合 Stream<Integer> stream(); Stream<String> stringStream = new ArrayList<String>() .stream(); 二、 根据数值范围创建数值流 六、由函数来生成无限流 Java8提供了Stream.iterate()和Stream.generate()来生成无限流,这两个方法会根据给定的表达式来生成包含无限个数据的流,所以一般结合limit()

    87040发布于 2020-10-09
  • 来自专栏苏三说技术

    创建线程的 8 种方法

    其实,Java 提供了多种方式来创建线程,每一种都有其独特的优势和适用场景。 这篇文章将从浅入深,详细剖析 Java 创建线程的8种方法,希望对你会有所帮助。 1. 使用线程池 线程池是一种高效的线程管理机制,可以复用线程,减少创建和销毁线程的开销。 优缺点 优点: 高效管理线程生命周期,避免频繁创建和销毁线程。 缺点: 需要合理配置线程池参数,否则可能导致资源浪费。 5. 使用 CompletableFuture CompletableFuture 是 Java 8 提供的一种异步编程工具,支持链式调用,非常适合复杂任务的分解与组合。 8 种方法,每一种方法都有其适用场景和优缺点。

    76800编辑于 2024-12-30
  • 来自专栏机器学习、深度学习

    人群分析、人群计数 开源代码文献及数据库

    Scale-adaptive Convolutional Nerual Network https://github.com/miao0913/SaCNN-CrowdCounting-Tencent_Youtu 人群分析 Towards perspective-free object counting with deep learning ECCV2016 https://github.com/gramuah/ccnn 人群计数 Density Estimation for Crowd Counting AVSS 2017 https://github.com/svishwa/crowdcount-cascaded-mtl 人群计数 /hosseinm/med Panic,Fight,Congestion,Obstacle ,Neutral 人群异常检测 Anomaly Detection and Localization in Crowded Scenes 数据库 http://www.svcl.ucsd.edu/projects/anomaly/ 人群分析 Deep Spatio-Temporal Residual

    2.1K70发布于 2018-01-03
  • 来自专栏张叔叔讲互联网

    人群数据如何对外输出

    人群创建成功后会存储在Hive表和OSS中,画像平台用户有时需要拉取人群数据并应用到一些业务中。 比如用户希望在Push平台上针对指定人群下的所有用户推送消息,此时可以使用画像平台接口拉取人群数据;在七夕活动中,运营人员投放使用了多个人群,为了分析不同人群的转化效果,此时需要将人群结果的Hive表提供给数据分析师使用 获取人群基本信息接口主要用于查询人群基本信息,其中包括人群名称、用户数量、人群状态、创建者、创建规则等,该接口可以使用缓存来提高接口性能。 当业务方需要感知人群状态变化时,可以定期调用人群基本信息接口,对比人群前后状态就可以知道人群状态是否变更。比如在Push平台上置了一个定时更新人群,当人群数据更新后需要再次给人群下的用户推送消息。 此时Push侧需要及时感知人群状态变化,当发现人群重新创建成功后再次进行Push操作。

    72150编辑于 2023-10-23
  • 来自专栏技术杂记

    使用XtraBackup创建mysql slave8

    恢复数据库 备份目录里有几个文件,里面有一些重要信息 恢复之前,我习惯将它们进行备份 [root@slave-test 2015-10-12_15-24-06]# file xtrabackup_* xtrabackup_binlog_info: ASCII text xtrabackup_checkpoints: ASCII text xtrabackup_info: ASCII text xtrabackup_logfile: data [root@slave-test 2015-

    60610编辑于 2022-05-04
  • 来自专栏算法

    创建线程的8种方法

    创建线程的8种方法 1. 继承Thread类 最直接的方式是创建一个继承自Thread类的子类,并重写其run()方法。 缺点: 需要额外创建Thread对象。 3. 实现Callable接口 Callable接口与Runnable类似,但它支持返回值和抛出异常。 8. 使用Guava的ListenableFuture Guava的ListenableFuture是对Future的增强,支持任务完成后的回调处理。 总结 以上就是Java中创建线程的8种方法,每一种方法都有其适用场景和优缺点。希望大家在实际开发中,能根据场景选择合适的方式。

    45010编辑于 2025-01-02
  • 来自专栏林德熙的博客

    创建不带BOM 的UTF8

    如果使用 StreamWriter 创建的文本,都是默认带 BOM ,如果需要创建一个不带BOM的文件,请看本文。 因为有很多个编码,打开一个文件,很难判断这个文件是什么编码。 下面就来提供一个简单的方法创建不带 BOM 的文件。因为和编码有关系,所以只需要替换 StreamWriter 的编码就会好了,下面提供两个方法创建编码。 Encoding utf8WithoutBom = new UTF8Encoding(false); Encoding isoLatin1Encoding = Encoding.GetEncoding ("ISO-8859-1"); 建议使用第一个方法,创建编码就可以开始写文件 下面是把 GBK 编码的文件读取然后转换为 UTF8 的代码,代码可以直接运行,当然需要修改文件为自己的文件。 static void Main(string[] args) { var file = new FileInfo("E:\\博客\\创建不带BOM 的UTF8.

    2.4K10发布于 2018-09-18
  • 来自专栏机器学习、深度学习

    人群计数--Mixture of Counting CNNs

    of CNNs Specialized to Specific Appearance for Crowd Counting https://arxiv.org/abs/1703.09393 本文是人群计数的 ,不是人群密度估计。 这里主要的思路是针对不同场景的 scale and congestion 造成图像块的 Appearance 差别很大,这里我们使用多个小 CNN 来估计总人群。 另外适应一个大点的 CNN 对 图像块进行分类,这种分类主要依据人群密度大小。类别的概率作为每个小 CNN 的权重。 Appearance 的差异性 ?

    71370发布于 2018-01-03
  • 选址、调研所需周边人群画像怎么获取?区域人群画像分布API接入指南!

    返回响应参数从返回参数中可见该API的数据丰富度——仅基础画像就包含8类分布数据。对于有真实人群画像统计与分析需求的企业和产品而言,该接口能大幅节省调研时间与人力成本。 API获取指南及应用案例这个API主要来源是一个新上线的数据开放平台,提供很多人群、客流类 API(人群热力图、人群画像、客流趋势、客流画像等),比较小众,但包含的API还是很实用的。 1, "radius": 100, "location": "113.943,22.535", "data_type": 1})headers = { 'token': '5b139c8cd617c24965401965a9fdc6e3 /populationlabel", payload, headers)res = conn.getresponse()data = res.read()print(data.decode("utf-8" 若您的业务也需构建人群画像、区域洞察或客流分析等能力,“区域人群画像分布API”将是理想选择。

    34410编辑于 2025-10-17
  • 来自专栏机器学习AI算法工程

    受众行为分析与人群定向

    “物以类聚,人以群分”这句古语不仅揭示了物与人的自组织趋向,更隐含了“聚类”和“人群”之间的内在联系。 例如在现代数字广告投放系统中,最为关键的“人群定向”功能正是通过“聚类”算法得以实现的。 明白了这一点,也就触摸到了人群定向的天花板–不可能百分之百精准。 如何从广泛的受众中提炼目标人群呢? 正是依靠受众行为分析。 下面我们以易传媒的广告投放算法为例,浅析一下怎样由预先标注的关键词标签,一步步建立完整的受众行为分析模型,挖掘出具有相似行为特征的人群,提炼人群的属性特征,最终进行最合适的广告投放的。 人群定向投放 作为人群定向广告正式投放前的最后一步,受众聚类和结构化的人群分类将进行匹配映射。这种映射是利用二者标签集合的重合度来实现的。 根据第一节所述关键词模型的优势,它至少有如下两个用途: (1)当一个投放策略的人群定向选择了”奢侈品”或者”汽车”时,广告允许被指定投放给受众聚类φ所包含的Cookies. (2)利用两个标签在一个细分人群中的内在关联性

    2.5K70发布于 2018-03-14
  • 来自专栏无原型不设计

    Mockplus 的主要应用人群

    所以,Mockplus的适用人群是比较广的,只要你有产品(范围很广,可以是某网站,某功能,某个策划案,某个广告模型,某个创意等)模型的展示需要。 项目经理 Project Managers 同样,项目经理使用Mockplus,快捷而简便的创建网站构架页面示意图、操作流程图、以及交互设计图,并可自动生成用于演示的幻灯片(甚至独立的Exe幻灯片文件

    84360发布于 2018-03-15
领券