首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏张叔叔讲互联网

    画像平台人群创建方式-导入人群创建

    导入人群是将外部数据导入画像平台构建人群,主要有3种实现方式:文件导入、Hive表导入和SQL导入。 Hive导入和SQL导入方式创建的人群数据直接存储到Hive表中,后续需要通过HiveToBitmap将人群数据写入BitMap并存储在OSS中。 与Hive导入人群方式不同,文件导入优先生成人群BitMap,之后再通过BitMapToHive过程写入到人群结果Hive表中。 导入人群是画像平台最常用的人群创建方式之一,其实现了将各类数据源沉淀为人群的功能,支持更灵活的人群创建方式,拓展了画像平台数据范围。 比如运营人员将某次活动中表现良好的用户导入画像平台并构建成人群,后续可以进行广告投放或者人群分析;数据分析师离线统计出了一批高价值用户,导入平台构建人群后可以直接提供给业务使用。

    90610编辑于 2023-10-19
  • 来自专栏生信技能树

    把maf格式的somatic突变数据导入annovar去除人群频率变异

    首先maf格式的somatic突变数据制作成为annovar软件的输入格式: cut -f 5-7,12,13,1,16 human_brca_all_mutect2.maf |cut -f 2-7 > 1 cut -f 5-7,12,13,1,16 human_brca_all_mutect2.maf |cut -f 1 > 2 paste 1 2 > for_annovar.input ### 首先,被千人基因组计划的人群频率0.05过滤掉的坐标拿出来: perl -alne '{print if $F[1]>0.05}' tmp.hg38_ALL.sites.2015_08_dropped /human_brca_all_mutect2.maf |perl -alne '{if(/^1000/){$h{"$F[2]\t$F[3]"}=1}else{print unless exists $ 终于看到了一个完整的mutect2使用脚本 小鼠全基因组数据分析

    2.3K20发布于 2018-09-21
  • 来自专栏张叔叔讲互联网

    人群LookALike以及挖掘人群的创建思路

    人群LookALike是给定种子人群,然后通过技术手段找到与该种子人群相似的用户群体。 图5-26展示了基于向量求LookALike人群的主要流程。图片基于种子人群特征分布计算相似人群。 图片基于分类算法计算相似人群。把种子人群当作正样本,其他非种子人群(或者其他人群)当作负样本,通过训练分类模型计算出满足条件的用户并构建目标人群。 目前也有利用社交网络进行人群LookALike的实践方案,通过好友关系找到种子人群中所有用户的几度好友并构建目标人群。挖掘人群是指定优化目标,借助算法能力找到满足要求的用户并构建人群人群挖掘的思路是先找到训练样本(种子人群),然后通过LookALike的思路扩展种子人群。该方式与人群LookALike不同的是,人群挖掘的结果中可以包含种子人群中的用户数据。

    1.9K30编辑于 2023-10-22
  • 来自专栏张叔叔讲互联网

    画像平台人群创建方式-规则人群创建

    规则圈选是按照指定条件从画像数据中找到满足要求的用户并沉淀为人群的一种常见的人群创建方式。所谓的规则就是条件的组合,比如北京市男性用户,最近一周平均在线时长介于2到10分钟之间的中老年用户。 前两种执行方式生产的人群会优先产出BitMap并存储到OSS中,第三种方式生成的人群数据直接存储在Hive表中。为了实现人群数据的持久化存储和便捷的接口调用,人群数据最终会存储在Hive表和OSS中。 Hive表中的人群数据主要用于离线数据分析场景,很多业务使用人群之后需要通过人群结果表进行效果分析。图5-13展示了人群结果表的表结构设计,人群crowd_id作为分区键,分区下包含该人群所有用户。 OSS中的人群数据主要应用在通过接口获取人群数据的场景下。人群数据压缩为BitMap并存储到OSS中,一亿人群大小在100M左右,通过接口可以在几秒内获取到人群结果。 表中数据,在内存中构建BitMap后存储到OSS中;BitMapToHive需要将内存中的数据快速写入Hive表,主要分为写入本地文件、上传到HDFS以及加载成Hive表三个步骤,该过程与第3章中通过文件导入创建标签类似

    2K00编辑于 2023-10-18
  • 来自专栏全栈程序员必看

    pycharm怎么导入cv2_pycharm导入cv2「建议收藏」

    pycharm导入cv2 pycharm导入cv2 最近才开始接触python,经师哥推荐,使用了Pycharm作为编程软件。 ,搜索cv2导入即可,但是,并不成功,因为电脑里的python没有配置opencv吧,我感觉是这样。 然后在下面这个路径site-packages下找到cv2———.pyd文件,这个文件的具体名字跟安装opencv的版本有关,在网上查的是,要把这个文件改名成cv2.pyd,然后要把这个文件复制到Lib目录下 然后程序就可以跑了,但是我回头重复第一步导入cv2,依旧是不好用。 我也很迷惘,还是对pycharm这个软件不熟悉,好多东西都不懂,不过庆幸的是,把这个问题解决了。 pycharm导入cv2相关教程 发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/175467.html原文链接:https://javaforall.cn

    2.2K20编辑于 2022-09-27
  • 来自专栏全栈程序员必看

    pycharm导入cv2包_pycharm中cv2导入失败

    学习的程序 会有 import cv2 这条语句,我刚开始的想法是在File下面找到Deafault settings,再找到Project Interpreter,找到+,Available Packages ,搜索cv2导入即可,但是,并不成功,因为电脑里的python没有配置opencv吧,我感觉是这样。 然后在下面这个路径site-packages下找到cv2———.pyd文件,这个文件的具体名字跟安装opencv的版本有关,在网上查的是,要把这个文件改名成cv2.pyd,然后要把这个文件复制到Lib目录下 然后程序就可以跑了,但是我回头重复第一步导入cv2,依旧是不好用。 我也很迷惘,还是对pycharm这个软件不熟悉,好多东西都不懂,不过庆幸的是,把这个问题解决了。

    1.7K20编辑于 2022-09-25
  • 来自专栏小七的各种胡思乱想

    AB实验人群定向HTE模型2 - Causal Tree with Trigger

    hat{\tau}(S_l) = \hat{\mu_1}(S_l) -\hat{\mu_0}(S_l) \quad \text{叶节点CATE}\\ &F(S_l) = N_l * \hat{\tau}^2(

    1.7K30发布于 2019-10-23
  • 来自专栏技术杂记

    Elasticsearch 批量导入数据2

    产生了报错,并且数据也的确没有加成功,原因是在校验操作请求(action_and_meta_data)时,由于不符合规范,所以报异常 正确导入方法 解决办法是将格式纠正过来,加上换行 [root@es-bulk "address_province":"上海","address_city":"浦东新区","address_district":null,"address_street":"上海市浦东新区广兰路1弄2号 : "order_list", "_id" : "903713", "_version" : 1, "_shards" : { "total" : 2, "address_province":"上海","address_city":"浦东新区","address_district":null,"address_street":"上海市浦东新区广兰路1弄2号 jjjj.json [root@es-bulk summary]# less jjjj.json 其实就是匹配到合适的地方加上一个换行 ---- 内存不足 基本上只要遵循前面的操作方式,理想情况下都会很顺利地将数据导入

    93730编辑于 2021-12-02
  • 来自专栏python3

    python导入模块--import--2

    www.py3study.com' from test_import_color_print import colorprint #这里的test_import_color_print模块就是从当前目录下导入

    74720发布于 2018-08-02
  • 来自专栏机器学习、深度学习

    人群密度估计

    Counting Varying Density Crowds Through Attention Guided Detection and Density Estimation CVPR2018 本文针对人群密度问题 将 检测方法和回归方法结合到一起,以此来提升人群密度估计精度 人群密度估计问题目前主要的方法有基于检测的和基于回归的方法。 在人群密度小的时候,基于检测的方法效果更好。在人群密度较大的时候,基于回归方法的效果比较好。 ? ? 本文的思路就是将 检测方法和回归方法结合起来,各取所长。

    1.5K40发布于 2019-05-26
  • 来自专栏用代码征服天下

    DB2导入数据库

    1.登录服务器 首先使用db2用户登录到需要导库的服务器,通常用户名和密码为db2inst1/db2inst1 2.导出数据库 cd到导出目录,如bak 创建db2move文件夹: mkdir db2move 步执行失败,可以尝试这个命令,含@分隔符:db2look -d edstest -u db2inst2 -td @ -e -o db2look.ddl 3.导入数据库 你先将导出的数据库文件上传到你需要导入库的服务器上面 接着进入到db2move目录下,查看db2move.lst文件中的!" 的db2inst1和db2look.ddl文件中的SCHEMA是否一样(db2look.ddl文件开头中有CREATE SCHEMA "db2inst1";) 修改好db2look.ddl后我们现在开始导入表结构 ,执行三遍是为了确保所有表都会被创建 导入数据库数据: 刚才我们已经导入好表结构了,现在需要导入表数据 我们需要进入到db2move目录下,cd .

    3.8K10发布于 2020-08-10
  • 来自专栏用户画像

    相似人群画像算法

    ,格式为用户编号:相同阅读量,相似用户之间以逗号分隔 sim_num BIGINT 相似人群的人数 update_date string 数据日期 2、基础用户画像存在MongoDB中 Image [ 2].png 字段 含义 _id 用户id profile(离线)positive(实时) 用户正画像(喜欢),每个维度以分号间隔,每个子维度以逗号间隔,值格式为key_id:weight,维度含义依次为一级分类 (cluster_dic, sim_users_max_size): """ # 相似人群数量限制,dic->list :param sim_users_max_size: 相似人群的最大值 :type cluster_dic: 字典表 :param cluster_dic:相似人群字典表 :return: 相似度最高的相似人群 """ user_similarity_list : 相似人群的相似度字典表 :return: 相似人群画像字典表 """ cluster_profile_rs = {} for sim_user_obj in sim_users_profile_array

    2.6K61发布于 2018-07-19
  • 来自专栏机器学习、深度学习

    人群密度估计

    Understanding the Highly Congested Scenes CVPR2018 针对复杂场景的拥挤场景理解我们提出了一个 CSRNet 网络,该网络主要包括两个部分,前端使用一个 卷积网络用于 2D 该网络在几个常用的公开人群密度估计数据库上取得了不错的效果。 1 Introduction 拥挤场景解析的发展从简单的人群数值估计到 人群密度图估计,人群密度图可以提供额外的信息,因为同样数量的人可以分布在不同的位置,如下图所示 ? 生成准确的人群分布图挑战性比较大,其中一个主要的困难就是离散化的问题,人在图像中不是只占用一个像素,密度图需要保持局部邻域的连续性。其他的困难包括场景的多样性,相机角度的多样性。 的密度图估计多数采用了 multi-column based architecture (MCNN) 的架构,我们观察到这种结构存在几个问题: 1)Multi-column CNNs 比较难训练 2

    1.7K30发布于 2019-05-26
  • 来自专栏机器学习、深度学习

    人群分析、人群计数 开源代码文献及数据库

    Scale-adaptive Convolutional Nerual Network https://github.com/miao0913/SaCNN-CrowdCounting-Tencent_Youtu 人群分析 Towards perspective-free object counting with deep learning ECCV2016 https://github.com/gramuah/ccnn 人群计数 Density Estimation for Crowd Counting AVSS 2017 https://github.com/svishwa/crowdcount-cascaded-mtl 人群计数 /hosseinm/med Panic,Fight,Congestion,Obstacle ,Neutral 人群异常检测 Anomaly Detection and Localization in Crowded Scenes 数据库 http://www.svcl.ucsd.edu/projects/anomaly/ 人群分析 Deep Spatio-Temporal Residual

    2.1K70发布于 2018-01-03
  • 来自专栏TAB的coding生活

    ABAP随笔-EXCEL笔记 2-批量导入

    01 Excel简单导入 大概写了一个如下图程式:今天给一下ALSM_EXCEL_TO_INTERNAL的使用方法 Excel导入的功能是项目实施中很常见的功能。 TYPE zmmt001-f2, f3 TYPE zmmt001-f3, END OF ty_zmmt001. PARAMETERS p_file TYPE localfile MODIF ID gp2. WHEN 2.RAISE cntl_error. WHEN 3.RAISE error_no_gui. 下面从excel中导入数据到内表中: 你以为我会用ALSM_EXCEL_TO_INTERNAL_TABLE ?

    1.2K20编辑于 2022-06-25
  • 来自专栏计算机视觉战队

    腾讯优图出品:P2P网络的人群检测与计数

    2 引言 最近的ICCV2021,腾讯优图出品了一个人群基数相关论文《Rethinking Counting and Localization in Crowds: A Purely Point-Based 论文:https://arxiv.org/pdf/2107.12858.pdf 相比仅仅估计人群中的总人数,在人群中定位每个个体更为切合后续高阶人群分析任务的实际需求。 优图团队提出了一种完全基于点的全新框架,可同时用于人群计数和个体定位。 此外,作为该框架一个直观解法,研究者给出了一个示例模型,叫做点对点网络(P2PNet)。P2PNet忽略了所有冗余步骤,直接预测一系列人头点的集合来定位图像中的人群个体,这完全与真实人工标注保持一致。 实验证明,P2PNet不光在人群计数基准上显著超越了已有SOTA方法,还实现了非常高的定位精度。

    1.8K10编辑于 2022-01-25
  • 来自专栏张叔叔讲互联网

    人群数据如何对外输出

    比如用户希望在Push平台上针对指定人群下的所有用户推送消息,此时可以使用画像平台接口拉取人群数据;在七夕活动中,运营人员投放使用了多个人群,为了分析不同人群的转化效果,此时需要将人群结果的Hive表提供给数据分析师使用 拥有数据表权限的用户理论上可以读取到所有人群下的用户数据,如果部分人群数据比较敏感(比如充值用户人群、日活用户人群),就需要严格控制Hive表的读取权限。 可以通过人群下载等平台功能将人群数据导出到临时Hive表中供业务使用,这样可以避免上述三类问题的发生。对外提供人群数据的服务接口主要有两个:获取人群基本信息接口和获取人群BitMap接口。 获取人群基本信息接口主要用于查询人群基本信息,其中包括人群名称、用户数量、人群状态、创建者、创建规则等,该接口可以使用缓存来提高接口性能。 当业务方需要感知人群状态变化时,可以定期调用人群基本信息接口,对比人群前后状态就可以知道人群状态是否变更。比如在Push平台上置了一个定时更新人群,当人群数据更新后需要再次给人群下的用户推送消息。

    72150编辑于 2023-10-23
  • 来自专栏DataOps

    MySQL快速导入千万条数据(2)

    接上文,继续测试3000万条记录快速导入数据库。 一、导入前1000万条数据清库、建库、新建表结构、导入前1000万条数据,结果:■ 1000万行,有2索引导入耗时:16分钟Query OK, 9999966 rows affected, 5920 warnings (16 min 12.95 sec)Records: 9999966 Deleted: 0 Skipped: 0 Warnings: 5920可见,导入千万条数据,性能下降明显。 二、导入前2000万条数据清库、建库、新建表结构、导入前2000万条数据,结果:■ 2000万行,无 索引导入耗时:45分钟Query OK, 19999966 rows affected, 5920 三、导入后面的1000万条数据由于一次导入千万条数据性能较低,因此决定把后面的1000万行,拆分为两部分,分两次导入,如下操作:split -l 6000000 mysql_ab mysql_ab_得到两个文件

    2.3K20编辑于 2022-10-13
  • 来自专栏全栈程序员必看

    pycharm导入cv2包_pycharm安装cv2失败

    windows下 1.情况一:已在官网下载opencv 无需下载,只需要导入环境即可; 1.首先,在opencv目录中找到cv2文件夹: opencv3.4.8\opencv\build\python \cv2 复制文件夹 2.找到Python的根路径,在项目列表可查看(以实际显示的路径为主): 在python.exe目录下找到 Lib\site-packages,粘贴文件夹 2.情况二:

    2.3K10编辑于 2022-09-27
  • 来自专栏机器学习AI算法工程

    受众行为分析与人群定向

    明白了这一点,也就触摸到了人群定向的天花板–不可能百分之百精准。 如何从广泛的受众中提炼目标人群呢? 正是依靠受众行为分析。 {2,90,15,0,0,1}, 则被加权归一化后可能有θ(σ2)=0.8(点击行为的权重比浏览高);此外受众A还拥有其它一些标签,但权重系数比较低。 该指标R^2的取值范围在0与1之间,它总是随着分类的个数减少而变小,而类的个数进一步减少不应以R^2大为减小作为代价。测试结果R^2的值在0.80左右,这表明易传媒这套算法的聚类效果比较好。 人群定向投放 作为人群定向广告正式投放前的最后一步,受众聚类和结构化的人群分类将进行匹配映射。这种映射是利用二者标签集合的重合度来实现的。 根据第一节所述关键词模型的优势,它至少有如下两个用途: (1)当一个投放策略的人群定向选择了”奢侈品”或者”汽车”时,广告允许被指定投放给受众聚类φ所包含的Cookies. (2)利用两个标签在一个细分人群中的内在关联性

    2.4K70发布于 2018-03-14
领券