首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏张叔叔讲互联网

    人群LookALike以及挖掘人群的创建思路

    目前也有利用社交网络进行人群LookALike的实践方案,通过好友关系找到种子人群中所有用户的几度好友并构建目标人群挖掘人群是指定优化目标,借助算法能力找到满足要求的用户并构建人群。 规则人群是通过“条条框框”的筛选条件找出满足要求的用户,而挖掘人群通过算法更好地拟合用户特点,以业务的优化目标为导向更精确地找到目标用户。 以上示例都有具体的挖掘人群的优化目标:游戏下载量、充值金额、关注用户数,算法工程师根据该目标选择合适的模型进行人群挖掘人群挖掘的思路是先找到训练样本(种子人群),然后通过LookALike的思路扩展种子人群。该方式与人群LookALike不同的是,人群挖掘的结果中可以包含种子人群中的用户数据。 以上述充值送好礼活动为例,为了挖掘出充值意愿比较强烈的用户群,第一步需要找到种子人群,可以把最近有过充值行为的用户和最近在应用中有过消费行为的用户作为种子人群;第二步是基于种子人群进行扩量,其实现思路与

    1.9K30编辑于 2023-10-22
  • 来自专栏火星娃统计

    GEO数据挖掘4

    GEO数据挖掘4 sunqi 2020/7/12 概述 对GEO数据进行差异分析 简单比较 rm(list = ls()) options(stringsAsFactors = F) options(digits = 4) #设置全局的数字有效位数为4 load(file = 'step1-output.Rdata') #导入的数据中,dat为表达矩阵,group_list为分组信息 #按照group_list "jco", add = "jitter") # 添加p值 p + stat_compare_means()# 添加比较函数,默认使用wilcox } # 对4个样本的箱式图绘制 bp(dat[4,]) ? Control Vemurafenib ## 1 1 0 ## 2 1 0 ## 3 1 0 ## 4

    1.3K20发布于 2020-09-15
  • 来自专栏小七的各种胡思乱想

    AB实验人群定向HTE模型4 - Double Machine Learning

    Hetergeneous Treatment Effect旨在量化实验对不同人群的差异影响,进而通过人群定向/数值策略的方式进行差异化实验,或者对实验进行调整。

    3.8K00发布于 2020-02-18
  • 来自专栏PPV课数据科学社区

    数据挖掘系列(4)使用weka做关联规则挖掘

    2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 T, 7 T, 9 T} {0 T, 8 T} {6 T} {0 T, 5 T} {0 T, 9 T} {0 T, 1 T, 2 T, 3 T, 7 T, 9 T} {0 T, 9 T} {2 T, 4 1、安装好weka后,打开选择Explorer   2、打开文件   3、选择关联规则挖掘,选择算法   4、设置参数   参数主要是选择支持度(lowerBoundMinSupport),规则评价机制 4. lowerBoundMinSupport 最小支持度下界。5. metricType 度量类型。设置对规则进行排序的度量依据。 来源:www.cnblogs.com/fengfenggirl 系列好文: 数据挖掘系列(1)关联规则挖掘基本概念与Aprior算法 数据挖掘系列(2)--关联规则FpGrowth算法 数据挖掘系列

    3.1K60发布于 2018-04-23
  • 来自专栏张叔叔讲互联网

    画像平台人群创建方式-规则人群创建

    ,同理,人群圈选条件最终转换为Hive SQL语句并最终将执行结果构建为人群。 前两种执行方式生产的人群会优先产出BitMap并存储到OSS中,第三种方式生成的人群数据直接存储在Hive表中。为了实现人群数据的持久化存储和便捷的接口调用,人群数据最终会存储在Hive表和OSS中。 SQL语句示例如下所示,SQL执行后人群结果数据将直接存储到人群结果Hive表中。 Hive表中的人群数据主要用于离线数据分析场景,很多业务使用人群之后需要通过人群结果表进行效果分析。图5-13展示了人群结果表的表结构设计,人群crowd_id作为分区键,分区下包含该人群所有用户。 OSS中的人群数据主要应用在通过接口获取人群数据的场景下。人群数据压缩为BitMap并存储到OSS中,一亿人群大小在100M左右,通过接口可以在几秒内获取到人群结果。

    2K00编辑于 2023-10-18
  • Python数据挖掘编程基础4

    b.需要特别指出的是,Python一般不使用花括号({}),也没有end语句,可使用缩进对齐作为语句的层次标记。同一层次的缩进量要一一对应,否则会报错。以下是一个错误的缩进实例,如代码清单2-9所示。

    15710编辑于 2025-05-09
  • 来自专栏张叔叔讲互联网

    画像平台人群创建方式-导入人群创建

    导入人群是将外部数据导入画像平台构建人群,主要有3种实现方式:文件导入、Hive表导入和SQL导入。 Hive导入和SQL导入方式创建的人群数据直接存储到Hive表中,后续需要通过HiveToBitmap将人群数据写入BitMap并存储在OSS中。 与Hive导入人群方式不同,文件导入优先生成人群BitMap,之后再通过BitMapToHive过程写入到人群结果Hive表中。 导入人群是画像平台最常用的人群创建方式之一,其实现了将各类数据源沉淀为人群的功能,支持更灵活的人群创建方式,拓展了画像平台数据范围。 比如运营人员将某次活动中表现良好的用户导入画像平台并构建成人群,后续可以进行广告投放或者人群分析;数据分析师离线统计出了一批高价值用户,导入平台构建人群后可以直接提供给业务使用。

    90710编辑于 2023-10-19
  • 来自专栏机器学习、深度学习

    人群密度估计

    Counting Varying Density Crowds Through Attention Guided Detection and Density Estimation CVPR2018 本文针对人群密度问题 将 检测方法和回归方法结合到一起,以此来提升人群密度估计精度 人群密度估计问题目前主要的方法有基于检测的和基于回归的方法。 在人群密度小的时候,基于检测的方法效果更好。在人群密度较大的时候,基于回归方法的效果比较好。 ? ? 本文的思路就是将 检测方法和回归方法结合起来,各取所长。 4 Model Learning 这里主要定义了损失函数, 将其定义为 multi-task learning problem ? ? ? ?

    1.5K40发布于 2019-05-26
  • 来自专栏人生代码

    数据挖掘实践指南读书笔记4

    http://guidetodatamining.com/ 这本书理论比较简单,书中错误较少,动手锻炼较多,如果每个代码都自己写出来,收获不少。总结:适合入门。 欢迎转载,转载请注明出处,如有问题欢迎指正。

    43020发布于 2019-10-30
  • 来自专栏生物信息云

    TCGA数据挖掘(四):表达差异分析(4

    在之前我们的文章:TCGA数据挖掘(三):表达差异分析中,我们利用的是TCGAbiolinks包中的TCGAanalyze_DEA函数进行差异表达分析,我们也提到可以选择基于limma或edgeR包进行分析 ,TCGA数据挖掘(三):表达差异分析这一讲中我们利用的是edgeR包,之后我们在文章:TCGA数据挖掘(四):表达差异分析(2)和TCGA数据挖掘(四):表达差异分析(3)中分别也介绍了其他方法的差异分析

    4.9K51发布于 2019-09-18
  • 来自专栏用户画像

    相似人群画像算法

    一、数据源 1、相似人群数据存在TDW库中,数据字典说明: CREATE TABLE sim_people_tdw_tbl( uid STRING COMMENT 'reader id', ', update_date STRING COMMENT 'update_date' ) 字段 类型 含义 uid string 用户标识 sim_uids string 与uid喜好相似的人群 ,格式为用户编号:相同阅读量,相似用户之间以逗号分隔 sim_num BIGINT 相似人群的人数 update_date string 数据日期 2、基础用户画像存在MongoDB中 Image [ 相似人群字典表 :return: 相似度最高的相似人群 """ user_similarity_list = sorted(cluster_dic.iteritems(), key : 相似人群的相似度字典表 :return: 相似人群画像字典表 """ cluster_profile_rs = {} for sim_user_obj in sim_users_profile_array

    2.6K61发布于 2018-07-19
  • 来自专栏机器学习、深度学习

    人群密度估计

    该网络在几个常用的公开人群密度估计数据库上取得了不错的效果。 1 Introduction 拥挤场景解析的发展从简单的人群数值估计到 人群密度图估计,人群密度图可以提供额外的信息,因为同样数量的人可以分布在不同的位置,如下图所示 ? 生成准确的人群分布图挑战性比较大,其中一个主要的困难就是离散化的问题,人在图像中不是只占用一个像素,密度图需要保持局部邻域的连续性。其他的困难包括场景的多样性,相机角度的多样性。 Multi-column CNNs 比较难训练 2)Multi-column CNNs 引入了冗余的网络结构,如表1 所示 3) 需要 density level classifier ,这样计算量比较大 44 Experiments 4.1. Evaluation metrics ? ? ? ? ?

    1.7K30发布于 2019-05-26
  • 来自专栏PPV课数据科学社区

    数据分析&数据挖掘入门知识分享(4

    编者按:本文为 数据分析&数据挖掘入门知识分享(3)的连载,还有一部分待上传,欢迎小伙伴们关注学习,若对您有帮助请分享至朋友圈,让更多人学习! 以下图片点击横屏观看效果更佳

    92050发布于 2018-04-24
  • 来自专栏漏洞战争

    honggfuzz漏洞挖掘技术深究系列(4)—— 扩展Fuzzer

    对于一些复合文件格式,如果只是单纯的暴力Fuzzing,会导致生成很多无法被解析的文件,因此需要对文件变异作一些定制化的工作,比如docx、doc等office复合文件,docx是个压缩包,doc是个OLE格式,如果fuzz docx自然需要将其zip解压,再针对感兴趣的文件作变异,对于doc最好是作文件格式解析,只对感兴趣的stream作文件变异,这样的fuzzing的有效性才会更高。

    1.2K30发布于 2019-07-18
  • 来自专栏机器学习、深度学习

    人群分析、人群计数 开源代码文献及数据库

    Scale-adaptive Convolutional Nerual Network https://github.com/miao0913/SaCNN-CrowdCounting-Tencent_Youtu 人群分析 Towards perspective-free object counting with deep learning ECCV2016 https://github.com/gramuah/ccnn 人群计数 Density Estimation for Crowd Counting AVSS 2017 https://github.com/svishwa/crowdcount-cascaded-mtl 人群计数 /hosseinm/med Panic,Fight,Congestion,Obstacle ,Neutral 人群异常检测 Anomaly Detection and Localization in Crowded Scenes 数据库 http://www.svcl.ucsd.edu/projects/anomaly/ 人群分析 Deep Spatio-Temporal Residual

    2.1K70发布于 2018-01-03
  • 来自专栏往期博文

    【数据挖掘】任务4:20Newsgroups聚类

    folks my mac plus finally gave up the gh... 3 \ndo you have weitek s address phone number ... 4 format(cluster)) # 测试集预测结果可视化 count_target = dataset_df['target'].value_counts() plt.figure(figsize=(8, 4)

    71420编辑于 2022-09-01
  • 来自专栏新智元

    Lookalike算法教你用深度学习挖掘高相似度人群

    效果和规模之间达成“帕累托最优”(最理想状态)显得相对棘手——随着流量数量的增大,人群的聚焦性也必然逐步降低,寻找目标人群的难度加大,致使非目标人群的比例也随着流量的增加而增加。 Lookalike技术成今年腾讯广告算法大赛主题,探索更多新算法和应用 腾讯社交广告早在 2013 年开始调研探索 Lookalike 技术,设计基于种子用户画像和关系链寻找相似人群,即根据种子人群的共有属性进行自动化扩展 因此在商业应用的时就需要一个逐步探索扩展的过程,而不是一次性扩展大量人群。在广告投放上这种需求更加迫切,如果扩展人群数过多必然导致精准性差,反之则会影响广告的曝光展示量。 submissionGuid=bbc98aa9-ab9f-4ca4-be53-976f9243c19b https://arxiv.org/pdf/1704.05194.pdf https://mp.weixin.qq.com __biz=MzI3MTA0MTk1MA==&mid=2652019246&idx=1&sn=0bf82a2ebeea3c4b7a70302b36fef7f9&chksm=f121eedfc65667c95dd3cf66a29d6189ee33cc0834874bf94de01cbcd61ca7ab899ea4e47204

    3.3K20发布于 2018-06-22
  • 来自专栏张叔叔讲互联网

    人群数据如何对外输出

    比如用户希望在Push平台上针对指定人群下的所有用户推送消息,此时可以使用画像平台接口拉取人群数据;在七夕活动中,运营人员投放使用了多个人群,为了分析不同人群的转化效果,此时需要将人群结果的Hive表提供给数据分析师使用 拥有数据表权限的用户理论上可以读取到所有人群下的用户数据,如果部分人群数据比较敏感(比如充值用户人群、日活用户人群),就需要严格控制Hive表的读取权限。 可以通过人群下载等平台功能将人群数据导出到临时Hive表中供业务使用,这样可以避免上述三类问题的发生。对外提供人群数据的服务接口主要有两个:获取人群基本信息接口和获取人群BitMap接口。 获取人群基本信息接口主要用于查询人群基本信息,其中包括人群名称、用户数量、人群状态、创建者、创建规则等,该接口可以使用缓存来提高接口性能。 当业务方需要感知人群状态变化时,可以定期调用人群基本信息接口,对比人群前后状态就可以知道人群状态是否变更。比如在Push平台上置了一个定时更新人群,当人群数据更新后需要再次给人群下的用户推送消息。

    72150编辑于 2023-10-23
  • 来自专栏机器学习AI算法工程

    受众行为分析与人群定向

    下面我们以易传媒的广告投放算法为例,浅析一下怎样由预先标注的关键词标签,一步步建立完整的受众行为分析模型,挖掘出具有相似行为特征的人群,提炼人群的属性特征,最终进行最合适的广告投放的。 这得有请在计算机届鼎鼎有名的数据挖掘工:聚类(Clustering)。聚类是一个将数据集划分为若干类的过程。聚类的宗旨和评判标准是使得同类对象相似度尽可能大,而各个类之间的相似度尽可能小。 定义4:聚类效果指标 ? 该指标R^2的取值范围在0与1之间,它总是随着分类的个数减少而变小,而类的个数进一步减少不应以R^2大为减小作为代价。 这个人群就是经过多道工序处理之后,数据挖掘工最终给我们淘出的亮灿灿的金子。 人群定向投放 作为人群定向广告正式投放前的最后一步,受众聚类和结构化的人群分类将进行匹配映射。这种映射是利用二者标签集合的重合度来实现的。

    2.5K70发布于 2018-03-14
  • 来自专栏猿人工厂

    猿设计4——隐藏需求及实体的挖掘办法

    昨天我们通过对比UML用例图的方式,挖掘出了系统的部分实体,我们可以先看一下。 ? 这些实体看上去粒度粗矿了一些,一眼望去也没有什么关联,很难想象怎靠这些东西来运行一套系统。 今天我们对这些实体进行再一次的分析,挖掘系统中隐藏的实体和功能点。 这些隐藏的实体和功能点,往往就是容易埋坑的地方,正所谓需求一行代码万行,拿着功能就动手,不前前后后想清楚,心直口快就应承下需求,几乎是小猿猿们的通病,所以这部分知识也好好看看,如何通过已有的一鳞半爪去挖掘隐藏的东西 所以在进行系统分析和设计的时候,不要觉得枯燥无聊,除了要对隐藏的功能要进行挖掘,还要打起精神,多回顾一下之前的设计,看一看有没有遗漏的地方。 ?

    47620发布于 2020-07-28
领券