RFM_score = R_score * R 权重 + F_score * F 权重 + M_score * M 权重比如 : R、F、M 分箱个数分别为 5、5、5,权重均为 10,则 R、F、M 各自的分数范围: 10 分 -50 分,综合评分范围在:30 分 -150 分。 营销渠道效果评估与归因10 3. 多渠道组合路径效率评价 4 营销组合模型 MMM 机会 (Opportunity) 1. 目标群组发现 2. 增强分析在营销分析场景下的实现和应用
作者:石士 阿里妈妈技术团队 一、概览 随着大模型时代的到来,搜推广模型是否具备新的进化空间?能否像深度学习时期那样迸发出旺盛的迭代生命力? 带着这样的期待,阿里妈妈搜索广告在过去两年的持续探索中,逐步厘清了一些关键问题,成功落地了多个优化方向。如今,我们更加坚定地认为,搜推广模型与大模型的结合蕴藏着巨大的想象空间和业务价值。 依托预训练(pre-train)与后训练(post-train)的模型迭代新范式,阿里妈妈自主研发了广告领域专属大模型 LMA(Large Models for Advertising),并于 2024 规模效应,包括图片尺寸、训练样本和模型参数,模型尺寸经历了 0.1B、1B 和 10B 的升级过程,是 Deeper 方向规模化的主要路径。 Multi-dimensional Distillation for E-Commerce Relevance Learning 论文链接:https://arxiv.org/abs/2411.13045 五、总结与展望 本文介绍了阿里妈妈搜索广告在多模态和大语言模型方面的成功实践
阿里妈妈论文概述 阿里妈妈技术团队此次共有6篇论文被接收,涵盖深度学习、投放策略推荐、端到端机制优化、协同竞价博弈等多个方向的技术沉淀和应用。 比如,在 KDD2018 上由阿里妈妈技术团队首先提出的深度兴趣网络(Deep Interest Network,简称 DIN),被普遍认为是该领域的开篇之作。 DIN 是一种有效的用于 CTR(点击率)、个性化推荐的深度学习模型,其效果在阿里妈妈的业务中得到验证并已经开源,可适用于其他很多场景。 感兴趣同学可在公众号回复 DIN 获取相关资料~ 接下来,阿里妈妈技术团队会持续以深度学习为核心,在阿里自研的业 AIOS、MaxComputer 等基础上面,构建 XDL、MDL、EULER 三大AI 正如阿里妈妈 CTO 郑波所提到的:“深研AI前沿技术,是为了大规模应用于实际业务;论文不是目的,重要的是分享。我们也会尽可能多的开源,和大家共享AI技术带来的红利。
分享嘉宾:何杰 阿里妈妈 高级算法专家 编辑整理:孙锴 内容来源:DataFun AI Talk 出品社区:DataFun 注:欢迎转载,转载请注明出处 导读:阿里妈妈是阿里巴巴集团旗下数字营销的大中台 如何驱动这艘商业航母不断前行,阿里妈妈技术团队始终坚持技术创新驱动业务增长的战略,而 TDM 正是在这一战略指导下,由阿里妈妈精准定向广告算法团队自主研究、设计、应用从而创造巨大商业价值的创新算法典型代表 在一开始上线之初,TDM 的 RT 增量达到了 60ms,对于阿里妈妈的在线广告链路完全不可用。 现阶段 TDM 主要接入了阿里妈妈定向广告的 Match 阶段,包括 Shop/Node/Item 已经全量上线,覆盖了阿里妈妈定向广告主要场景的大部分流量,CTR 和 RPM 的效果提升都达到了两位数 结合当前 TDM 在阿里妈妈的应用,我们希望能在下一个阶段,可以将 TDM 与现有技术做更深层的融合,比如在图检索、搜索业务等领域上面做一些优化和探索。 我们也一直坚持开放、开源的态度。
为了寻找对以上挑战的最佳解决方案,我们特地采访了阿里妈妈资深前端工程师冯雨老师,他是阿里广告投放平台的前端 owner,负责过大型广告平台代码重构迁移工作。 GoGoCode (https://github.com/thx/gogocode) 冯雨老师也是开源代码转换工具 GoGoCode 团队的成员,他和他所在的阿里妈妈前端团队在迁移大型前端项目的过程中逐渐孵化出了这一工具 冯雨:我目前在阿里妈妈前端技术部,日常的工作自然是开发和维护阿里广告投放相关的前端工程,有 PC 端也有小程序。坦白说,我做的是大部分前端开发者都在做的工作,所以遇到的也是大家普遍会遇到的问题。 比如就在去年,维护时的痛苦终于促使我们下定决心对团队维护的一个近 10 年、代码量超过 10w 行的老项目的底层框架进行了升级。 欢迎关注开源项目:GoGoCode https://github.com/thx/gogocode 嘉宾简介 冯雨 阿里巴巴阿里妈妈 营销研究和体验中心资深前端工程师 阿里广告投放平台前端 owner
机器之心专栏 作者:刘凯鹏 本文结合阿里电商业务场景的特点,介绍了阿里在匹配端和排序端的基于深度学习的一些工作。 阿里妈妈搜索营销团队也一直致力于探索前沿技术和具体业务场景的深度融合,推动业务的发展。围绕以上的技术问题给出结合自身业务特点的解法。 刘凯鹏(花名:治平)博士,现任阿里妈妈搜索广告算法负责人,阿里巴巴资深算法专家/技术总监。 2011 年加入阿里妈妈事业部,主导并建立了阿里巴巴搜索广告的算法引擎,包括广告触发模型,用户点击率和转化率预估模型以及拍卖机制优化,推动了搜索广告引擎从非个性化时代进化到个性化时代,并将深度学习技术在淘宝场景进行了深度的应用 刘凯鹏博士于 2004,2007 和 2011 年相继在哈尔滨工业大学获得学士、硕士和博士学位,在国际知名学术会议和期刊上发表了超过 10 篇论文。
读了两篇阿里妈妈盖坤团队有关电商场景下的CTR预估最新成果,感觉写的挺好具有一定的启发意义(毕竟阿里集团拥有海量的一线用户行为数据,这个是其他所有公司都无法比拟的),今天就来梳理一下。 左边的Base model是阿里淘宝定向广告推荐系统在2017年之前使用的后台模型,整个特征分成两个部分:user和ad(指的就是商品)。 但是这些激活函数会拖慢模型的收敛速度,为了加快模型的收敛速度,阿里妈妈团队提出了一种Data Dependent的激活函数称之为”Dice”,如下所示: ? 因为阿里妈妈团队面对的是真实的工业级数据,所以数据中存在着大量的噪声,特别是特征的稀疏问题,很显然实战场景中的特征往往具有“长尾分布”的特性,即大量的特征出现的次数很少,少量的特征出现的次数很大。 第二篇是2018年2月阿里妈妈公开的论文《Learning Tree-based Deep Model for Recommender Systems》,这篇论文提出了一个基于树模型的算法框架,可以方便模型很快的找出给特定用户推荐的
---- 新智元专栏 来源:阿里妈妈 作者:闫肃,林伟,吴天舒,肖道锐,吴波,刘凯鹏 【新智元导读】阿里妈妈提出一种超出关键词和相关性的搜索框架:电子商务搜索中的个性化广告检索框架。 为了解决上述各种难题和挑战,阿里妈妈团队提出了一种新的搜索广告个性化检索系统。新的搜索检索系统引入用户行为异构图挖掘、机器学习等相关技术,通过模型学习的方式智能构建索引,取得了出色的效果。 异构图初始化方法 阿里妈妈搜索直通车业务有着巨大的体量和规模庞大的用户数据,用户行为异构图庞大复杂,包含了上百亿的节点和上万亿的边,使得模型训练非常困难。
今天给大家解读NeurlPS 2022中阿里妈妈在CTR预估模型方面的最新进展:Adaptive Parameter Generation(APG)。 APG针对每个样本动态生成定制化的模型参数,实现了千样本千模,显著提升了点击率预估效果,并且应用到阿里妈妈搜索广告系统中,带来3%的点击率提升和1%的收入提升。 6 总结 本文介绍了NeurlPS 2022阿里妈妈最新推出的CTR预估模型,针对不同样本动态生成个性化的模型参数,实现了千样本千模的能力,可以应用于各个经典CTR预估模型中,显著提升了预测效果,模型实现起来不难
阿里妈妈团队表示,近年来随着在图深度学习技术的突破,有希望通过图引入知识结构和推理能力,与深度学习的结合,进一步提升模型能力。 2017 年 5 月,阿里妈妈开发完成第一个单机版本的图学习系统,支持他们基于随机游走类的图学习算法,并在阿里妈妈深度匹配业务上取得不错的效果。 除了 LINE 算法,Euler 实现的算法可以分为随机游走与邻居汇聚两大类算法,其中也有阿里妈妈团队自研的开创性算法。 ? 这使得在阿里妈妈的海量数据下应用三层 GCN 成为可能,广告匹配的效果获得了显著提升。 LsHNE LsHNE 是技术团队结合阿里妈妈搜索广告场景创新地提出一种无监督的大规模异构网络 embedding 学习方法。
导读:本次带给大家分享是阿里妈妈在2018年做的模型上的创新——深度兴趣演化网络(Deep Interest Evolution Network),分享将从以下几个方面展开—— 1.
阿里Pouch并不是一个完全创新的技术。 最早,阿里基于LXC技术为集团业务提供容器服务,2011年,阿里自研容器技术T4,2016年,阿里内部将容器技术重新命名为Pouch,并于去年支持集团内部大量核心业务,比如电商平台核心业务、主要应用和部分数据库 正如阿里巴巴技术专家孙宏亮所言,Pouch作为从阿里巴巴集团内部大规模场景自研技术,相比docker、rkt等容器技术,差异化的核心价值体现在以下几个方面: 富容器技术:容器内部的应用体验如虚拟机般,拥有 9.开源数据库AliSQL AliSQL是基于MySQL官方版本的一个分支,由阿里云数据库团队维护,目前也应用于阿里巴巴集团业务以及阿里云数据库服务。 10.可视化编码的图形语法AntV - G2 G2 是一套基于可视化编码的图形语法,以数据驱动,具有高度的易用性和扩展性,用户无需关注各种繁琐的实现细节,一条语句即可构建出各种各样的可交互的统计图表。
面对如此大规模的推广展现任务,阿里妈妈的广告推荐系统起到了至关重要的作用。随着历史的推演,从 2012 年起,阿里妈妈的预估模型也在不断的迭代和创新,每年为公司带来数十亿级的收益提高。 预估排序技术(ranking):阿里妈妈是业界最早一批全面构建、创新自研大规模端到端深度学习模型的团队,尤其是立足于电商场景、针对海量的用户行为数据,阿里妈妈持续发力用户兴趣建模技术,提出了深度兴趣网络 、量化与剪枝技术,如基于 Distillation 技术的轻量级模型压缩算法Rocket Training[10]等。 这些来自工业实战的独特 AI 技术创新,结合阿里丰富的个性化行为数据,推动了阿里妈妈的广告业务持续、高速的增长。 朱小强进一步解释,今天阿里妈妈绝大部分核心技术模块基本都构建在深度学习基础之上,强化学习则驱动了阿里妈妈的广告策略机制和智能调控算法的关键升级。
随着阿里巴巴数据库规模越来越大,整个监控系统就成为了瓶颈,比如:采集精度,受限于系统能力,最初我们只能做到1分钟,后来经过历年的优化,我们把采集精度提升到10秒。 10、2017-2018年:存储计算分离的技术突破 2017年初,集团高年级技术同学们发起了一个技术讨论:到底要不要做存储计算分离?由此引发了一场扩日持久的大讨论。 :深度揭秘阿里数据库技术方案的10年变迁史》 >> 更多同类文章 …… 附录2:大厂技术分享 《微信朋友圈千亿访问量背后的技术挑战和实践总结》 《腾讯技术分享:腾讯是如何大幅降低带宽和网络流量的(图片压缩篇 单机千万连接背后的后台解决方案》 《微信朋友圈海量技术之道PPT [附件下载]》 《微信对网络影响的技术试验及分析(论文全文)》 《一份微信后台技术架构的总结性笔记》 《架构之道:3个程序员成就微信朋友圈日均10 WhatsApp、Line、微信的心跳策略分析》 《移动端IM实践:谷歌消息推送服务(GCM)研究(来自微信)》 《移动端IM实践:iOS版微信的多设备字体适配方案探讨》 《信鸽团队原创:一起走过 iOS10
这些都是最近刚刚成立的北大 - 阿里妈妈人工智能创新联合实验室所关注的问题。 2017 年 5 月,阿里妈妈开发完成了第一个版本的图学习系统,支持基于随机游走类的图学习算法,并在阿里妈妈深度匹配业务上取得了不错的效果。之后,他们还陆续开发了一些高效的图神经网络算法。 可以说,在大模型的研究方向上,阿里妈妈具有天然的优势。 该平台每天可以产生 8000 万的图文创意、100 万的短视频创意,为商家带来 10 亿次以上的曝光。 阿里妈妈总裁刘博表示,阿里妈妈内部业务已全面实现 AI 化,未来将继续为实验室的技术研究提供技术平台和验证场景,共同推动商业数智化进程。
最快的速度把10亿条数据导入到数据库,首先需要和面试官明确一下,10亿条数据什么形式存在哪里,每条数据多大,是否有序导入,是否不能重复,数据库是否是MySQL? 假设和面试官明确后,有如下约束 1、 10亿条数据,每条数据1Kb; 2、 数据内容是非结构化的用户访问日志,需要解析后写入到数据库; 3、 数据存放在Hdfs或S3分布式文件存储里; 4、 10亿条数据并不是 但如果是HDD的话,虽然顺序读写会有非常高的表现,但HDD无法应对并发写入,例如每个库10张表,假设10张表在并发写入,每张表虽然是顺序写入,由于多个表的存储位置不同,HDD只有1个磁头,不支持并发写, 前面提到了由于数据库并发写入的瓶颈,无法满足1个库同时并发大批量写入10个表,所以100个任务同时写入数据库,势必导致每个库同时有10个表同时在顺序写,这加剧了磁盘的并发写压力。 文件所在的行号,最大值 大致为 10G/1k = 10M,即10000000。拼接最大的后缀99。最大的id为990000000。 所以也无需数据库自增主键ID,可以在批量插入时指定主键ID。
当时跟朋友吃饭,聊到他们前老板郭东白(前阿里速卖通 CTO,P10 大佬),说他那么个工作繁忙的 CTO,还经常骑四个小时山地车去长城脚底下写代码,而且每周有两到三天的上午会撸完铁再去上班,每次一个半小时 我记得那会阿白好像还是阿里速卖通的技术部总监,有次双十一速卖通交易量达两千多万,把六家全球级别大银行的系统都给冲垮了,结果阿里自己的系统在 300% 的峰值交易量增长面前却没丝毫闪失。 然后我就记住了郭东白这个名字,能把系统做得这么稳定,还是阿里 P10,这人绝对有点东西。阿里 P10 那是怎样的存在? 2000 年至 2010 年期间,郭东白在软件巨头甲骨文公司(Oracle)任职超过 10 年;后先后前往微软和亚马逊任职。 澎湃:独家|前 Lazada 集团 CTO 郭东白加盟车好多集团 P10 在整个阿里大概只有 400 多个,CTO 就更是少了,更何况还是独立业务线的 CTO,朋友说跟东白老师同级别总共也就七八个。
数据猿导读 阿里妈妈发布全域营销方案,将集团视角从电商向大数据转移;大数据平台艺恩发布“艺恩指数”,深挖泛娱乐领域数据价值;奥巴马大选团队创立的大数据公司Civis Analytics 获得A轮融资…… 来源:数据猿 作者:abby 一、阿里妈妈发布全域营销方案,将集团视角从电商向大数据转移 在近日举办的“2017阿里妈妈全球广告主峰会”上,阿里妈妈正式发布了Uni Marketing全域营销方法论。 据悉,该方法论主要以消费者运营为核心,并基于阿里集团每个Uni ID背后的消费者数据,旨在实现“全链路”、“全媒体”、“全数据”、“全渠道”的营销方法论。 事实上,最近几年,阿里集团已经逐步将集团视角由电商向大数据转移,借着发布新营销方法论的契机,阿里妈妈也表示未来将通过机器自学习算法,借助数据的沉淀和打通推动营销升级。 ?
前阵子,我和阿里的薪酬福利专家M同学聊了一下午,M同学做了9年薪酬,和我们吐槽了很多薪酬方面的现象,也道出了少有人关注的薪酬逻辑和常识。 这一次,我又找了一位阿里技术岗位的招聘专家T同学,从他的视角中,我们来看一下金三银四的招聘旺季下,10条求职的黄金规律。 可以说每一条都很有深度。 在阿里也有大专甚至中专的同事,一点都不影响他们成为公司的优秀员工,在职场上的员工优秀与否和学历有时候并不是正向关系。 10、没有什么企业或单位是完美的,没有缺陷的,每个公司都会有一些自己的问题,就算公司很好,你也有很大概率会遇到一些不是那么好的同事,上司或者合作伙伴。 在阿里也是,你不可避免会和自己不喜欢的人一起共事,但重要的是你的耐心,有耐心的人和任何人都能配合好工作,没耐心的人半年就换一份工作!
但是它的速度真是让人不敢恭维,一页12张图片都需要不少的时间代价,这10多万张图不得爬到猴年马月?于是我选择Scrapy框架来爬取图片。