导语 | 看点信息流每天为亿级用户提供海量实时推荐服务,除了大并发/低延迟/高性能等传统架构挑战以外,还有哪些推荐系统特有的架构挑战难题,又是如何解决的? 视频内容 一、看点信息流 在 QQ 浏览器的主页可以看到腾讯看点的信息流,信息流有三种形态:小视频、短视频、图文,属于业界信息流最主要的形态。 A:刚开始我们对用户部署多少也不知道,对一个用户的摸索情况,一个用户 1M、2M,用户刷的多,就可以多分配,类似 vector 的内容机制。 Q:索引服务用的是 DCache 吗? A:对。 Q:新用户如何推荐? A:用户维度就是去拿额外的数据,内容维度就是新热。 Q:信息流推荐里怎么利用用户搜索画像呢? A:应该是可以的,语言层面的开销差别不会太大,我们线上就已经 2ms,如果差别能差几毫秒呢,应该是影响不大。 Q:有删索引的场景吗? A:当然有,但是只删正排(快照) 不删倒排。
1、背景 信息流场景下,用户的行为会受到相邻展示的item的影响,如价格敏感的用户会对比相邻展示的item的价格,选择价格相对较低的item进行购买。 2)当前重排最常用的是序列生成+序列评估两阶段范式,序列生成方法可以采用启发式方法,也可以采用模型生成的方法如阿里的PRS,使用Beam-Search的方法生成多个候选序列。 在信息流的浏览过程中,用户的浏览行为存在以下两种特性: 1)单向性(Unidirectivity):用户在信息流的浏览过程中大都是从上往下浏览,很少来回进行物品的对比。 2)局部性(Locality):当用户停下来观察某一个具体的item时,他们倾向于将其与局部视野下相邻展示的其他item进行对比。 2、SGRA模型介绍 SGRA模型如下图所示,整体分为四个部分:Input Layer,PI Layer,Gated Attention Layer和Output Layer,接下来对各层进行介绍:
双塔模型是推荐、搜索、广告等多个领域的算法实现中最常用和经典的结构,实际各公司应用时,双塔结构中的每个塔会做结构升级,用CTR预估中的新网络结构替代全连接DNN,本期看到的是腾讯浏览器团队的推荐场景下, ⛵ 大厂技术实现的数据集下载(百度网盘):公众号『ShowMeAI研究中心』回复『大厂』,或者点击 这里 获取本文 腾讯信息流推荐排序中的并联双塔CTR结构 『CTR预估方法实现数据集与代码』⭐ ShowMeAI 图片1.3 双塔模型的优化 腾讯信息流团队(QQ 浏览器小说推荐场景) 基于以上限制对双塔模型结构进行优化,增强模型结构与效果上,取得了不错的收益,具体做法为:把双塔结构中的DNN简单结构,替换有效CTR 五、腾讯业务效果以下为腾讯QQ浏览器小说推荐业务上的方法实验效果(对比各种单CTR模型和并联双塔结构):图片5.1 团队给出的一些分析如下① CIN2 在单结构的双塔模型中的效果是最好的,其次是 DCN 』大厂解决方案大厂技术实现 | 多目标优化及应用(含代码实现)@推荐与广告计算系列大厂技术实现 | 爱奇艺短视频推荐业务中的多目标优化实践@推荐与计算广告系列大厂技术实现 | 腾讯信息流推荐排序中的并联双塔
今天给大家带来腾讯资深架构工程师⻢臻在2021年全球架构师峰会上所做的分享《内容分发场景的多目标架构实践.pdf》,本次分享共包含如下两大部分: 1、QQ看点推荐场景介绍和业务挑战; 2、多目标迭代架构实践
话题一转,说说今天的主角:2个工具,一个是抓包工具Charles,一个是API调试工具Postman。
Nextflow通过容器来实现可扩展且可重复的数据分析工作流程。它适用于最常见的脚本语言编写的流水线。其流畅的DSL简化了在云和集群上实现和部署复杂并行的生信数据分析流程。
说下我推荐的 2个阅读神器。 为什么说是阅读,而不是看书呢。在我朋友圈的读者们,可能已经知道了。比起看书,我平常阅读更多的是,期刊论文或者博硕毕设。偶尔,要学点新技术,看书才会成为我的选择。 所以,我要推荐的,1个神器,是微信读书,用来看书;第2个神器,是知网和谷歌学术。 微信读书,是我的年度最佳 app ,绝对可以排前三。 下图层1,是谷歌学术搜索;图层2/3,是知网的。但,他俩代表的是两个世界 如果你有好的看书,阅读神器,也欢迎留意,与大家一起分享! 不出意外,这是农历2022年前,最后一篇文章了。
最近才更新到微信的最新版本,早有耳闻公众号变成了微博似的信息流展示信息。之前也没有太在意,这次微信客户端版本更新以后,发现坏了坏了,以往的阅读习惯已经被彻底毁掉了。 下面两图都是我手机上的截图,左边是新的信息流模式,右边是信息流界面下点击右上角图标,回到的 “类似以往” 的基于订阅号发布者的模式。 从这个角度说,基于时间的信息流,有益,但多数情况下并不能带来特别大的好处。而且,微信信息流优先级还不完善,用户更感兴趣的内容很容易被淹没在茫茫信息大海之中。 其次,微信公众号的文章数量如何? 如果文章数量众多,那么基于信息流一定程度上可以提高浏览效率。 但是信息流以后呢?文章质量的重要程度,明显下降。 再说说基于订阅号的这另一半 订阅号最大的好处,在于基于消息发布者的消息组织。
分享嘉宾:罗锦文 腾讯 研究员 编辑整理:Jane Zhang 出品平台:DataFunTalk 导读:当前各大资讯社交类APP都在显著的版面展示或者推荐热点相关内容,信息流应用能否快速发现热点、引导用户阅读热点 用户搜索和媒体生产能够从消费和生产两个方面更加准确的度量热度,事件和话题同时能够辅助用户理解,做到热点的个性化下发,从而提升信息流热点体验。 当前各大产品都对热点进行了大量的投入,我们基于腾讯看点丰富的视频数据,深挖用户的兴趣内容,接下来看下我们在腾讯看点的推荐频道页。 2. 热点核心推荐问题 ? 2. 资讯文章热点挖掘 ? 作为信息流服务的团队,每天打交道最多的是海量数据。 2. 视频&小视频热点 ? 视频&小视频热中的应用,主要是基于热点挖掘得到的文本信息,将图文计算的热点传递给视频和小视频,怎么做的呢?
我最常听到的答案是推荐系统。现在,在硅谷有很多团体试图建立很好的推荐系统。因此,如果你考虑网站像亚马逊,或网飞公司或易趣,或 iTunes Genius,有很多的网站或系统试图推荐新产品给用户。 如,亚马逊推荐新书给你,网飞公司试图推荐新电影给你,等等。这些推荐系统,根据浏览你过去买过什么书,或过去评价过什么电影来判断。这些系统会带来很大一部分收入,比如为亚马逊和像网飞这样的公司。 推荐系统是个有趣的问题,在学术机器学习中因此,我们可以去参加一个学术机器学习会议,推荐系统问题实际上受到很少的关注,或者,至少在学术界它占了很小的份额。 (红色框中问号) 选定两个为电影的属性 n=2,一个是电影的爱情片程度 x1,一个是电影的动作片程度 x2,则可以用一个特征向量表示每一部电影(加上截距向量 x0=1),则第一部电影可表示为 ? 在一般的线性回归模型中,误差项和正则项应该都是乘以 1/2m,在这里我们将 m 去掉。并且我们不对方差项 (即截距项) 进行正则化处理。
上一篇文章中,我们介绍了「推荐系统之路」,有些小可爱在留言里表示期待下一篇。最近,这位作者大大更新了。 虽然还是关于推荐系统,但这次讲的是产品聚类以及相关方法,具体见下文↓↓ 在上一篇文章中,我大致介绍了推荐系统,但卡在了矩阵系统的性能这一块。 为此,我们使用 2 个不同的向量器:CountVectorizer 和* *tf-idf Vectorizer。前者用 {0,1} 创建二元向量,后者根据单词在所有向量中的频率为每个单词分配一个权重。 为了找出 2 个向量之间的相似性,我们用欧几里得距离来进行衡量。如果 2 个产品被归为 1 类,且距离要高于我们的阈值,我们就称生成的组为 category。 ? 想象一下,我们的数据就像一大桶产品。 https://medium.com/moosend-engineering-data-science/product-clustering-a-text-clustering-approach-c392c2ef4310
再结合具体的环境(时间、网络环境和位置信息等),向用户推荐其可能感兴趣的广告,从而提升广告和用户的匹配度,促进用户转化 转化效果是大家最关心的,信息流广告的投放都在线上,广告投放效果能够量化,用户各个维度的数据也都可以被统计到 搜索引擎广告是典型的原生广告,广告的样式和搜索出的词条内容非常相似,并且广告的内容和用户的搜索意图相关,转化效果较好 「信息流广告」是媒体主动推荐给用户的广告,可以出现在任意内容中间,搜索引擎广告是用户搜索关键词之后才能展现的 意图词推荐”拓词、剔除和产品无关的内容,核心思路就是“和自己产品相关” 想意图词的工具 ❝(1)百度搜索下拉框 (2)百度指数 (3)关键词规划师 ❞ 2. 选标题 如果已有创意不行,那么提升效果也不会太理想 巨量引擎广告系统不仅能推荐定向,还能推荐标题 4. 创意还要有“一句话,大部分是要优化师自己来写的,一般不能超过 30个字,媒体也会有“推荐标题”的参考 信息流广告是效果广告,有尝试成本低、数据可以即时反馈效果的特点,更新迭代速度很快,这也造成了信息流广告创意
从用户的角度讲,人们往往喜欢花2个小时看一部电影,却不愿意花20分钟去挑选一部电影;从企业的角度看,Data Science Central编辑总监Bill Vorhies曾撰文[1]表示,“据估计,对亚马逊和 在互联网领域,长尾效应尤为显著[2]。 如下图所示,图中横轴表示数据类型,纵轴表示频率,大部分数据的频率都很低,但都是大于零的(图中右侧黄色部分),这就是长尾。 similarity = cos_sim(a=movie_feature, b=user_feature, scale=2) # 训练时,采用regression_cost作为损失函数计算回归误差代价 由于Bot是面向API的,我们可以开发某个Workflow(比如IFTTT)完成一系列的任务,有人为其创造了一个新名词,叫“r2r - robots 2 robots”。 2. 接入PaddlePaddle预测文件 变量MODEL_PATH是模型评估.
1、推荐系统涉及的知识 电子商务业务知识、网站架构运营、机器学习算法、数学建模、大数据平台… 2、推荐系统涉及的常见算法 聚类、关联模式挖掘、大规模矩阵运算、文本挖掘、复杂网络和图论计算等… 3 、推荐系统分类 Ⅰ、基于应用领域分类 电子商务推荐系统、社交好友推荐系统、搜索引擎推荐系统、信息内容推荐系统...... Ⅱ、基于设计思想分类 基于协同过滤的推荐系统、基于内容的推荐系统、基于知识的推荐系统 、混合推荐系统...... Ⅲ、基于使用何种数据分类 基于用户行为的推荐系统、基于用户标签的推荐系统、基于社交网络数据的推荐系统、基于上下文信息的推荐系统...... 4、实现协同过滤的步骤 ①收集用户偏好数据 ,基于邻域的推荐算法又分为基于物品推荐算法和基于用户推荐算法。 实现基于邻域的算法思路举例: 推荐数据准备:用户id、物品id、偏好值 --- 把数据看成空间中的向量 (1)建立物品的同现矩阵 (2)建立用户对物品的评分矩阵 (3)矩阵计算推荐结果 ---
本文从互联网产品设计中的一些思考,关联介绍到信息流,瀑布流和页面元素相关的概念,希望对你有启发 01 工程师和产品经理关注度不同 对于特定的软件功能 程序工程师关注于功能实现逻辑,模块组合。 05 理解信息流 信息流,它是移动互联网时代的一种内容呈现方式。 英文名叫 feeds,原意是给动物投喂食品。 信息流的精髓: 01 源源不断 02 上瘾 再参照「人工智能分发」的核心的定义,就是由算法和人工智能来决定 什么样的内容在什么样的场景之下给到什么样的用户。 信息流说明 每个平台都有关于信息流定义,分发,商业化相关的产品。
最近在强化学习和语言模型的交叉点上可能有趣的另一篇论文是Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents. 2、
难兄难弟Twitter的Q2财报同样因为业务发展不及预期导致股价下跌20%。早前5月因为广告收入下滑的Snap这次也跟着遭殃,“社交阵营”几乎全军覆没。 另外一边的搜索阵营,除了Google,百度亦发布了Q2财报。 由单打独斗的产品,到在百度设定的主航道推进过程中有了更多的支撑,此信息流已非彼信息流。 ? 而观察百度信息流的对手,从艾瑞数据来看,最大的竞争对手今日头条从2018年2月到5月,用户增长持续在1%左右低迷,到6月才忽而实现了7%的增长,但细看月用户总时长,却在前几个月都有增长的情况下出现了5% 例如,信息流产品通过算法分析出某用户是跆拳道爱好者,从广告主资源库中筛选,向其推荐了健身房平台,或者线下培训机构,等着CTR数据再行调整投放策略。
痛大家所痛,信息流广告越来越难投相信大家都有共识。我负责对接的信息流渠道成本更是飙升不止,从去年底平均每个激活用户10块钱,上升到今年年初的15块钱,增长了近50%,更难堪的是增成本却不增量。 整体上后端看到我们的主流信息流渠道包的转化数据明显多于广告平台的激活转化数据;细分广告计划看,有的广告计划差别很大,有的则基本一致。大概如下图所示: ? 小A故作深沉地说:“这其实就是信息流代理商在掺量,通过掺量把信息流的推广成本在字面上看来变低,以保住生意,但其实真实成本仍然跟以前一样高。你可以自己算一下”。我打开excel捣腾一圈,果然如此: ? 如果代理商买到量的价格更低,假设是2块钱,利润就会上升到1000块钱,利润率提升到6.7%。 小A摇了摇头说更换也没有卵用,信息流成本本就非常之高,换神仙也很难改变成本上扬,数量下降,回报入不敷出的局面。
信息流广告的投放,是我们的知识星球(数据化营销与运营,星球ID:37941651)中被问及的最多的问题。 我忽然意识到,信息流也许跟我们过去所有的竞价优化都不同,尤其是与搜索竞价有天壤之别。 1 与谁竞价 信息流广告投放的优化,从理解竞价开始。 所有的竞价广告都是与“竞争对手”的竞价,但如果你只是这么简单的认为,你没有抓住信息流广告的真谛。 信息流广告与搜索引擎竞价广告有极为巨大的区别,从媒体端看,信息流广告竞价管理的特性是“机器参与的多,人参与的少”,而搜索排名竞价则是“人参与的多,机器参与的少”。 这是信息流广告投放优化的核心问题。 事实上,所有RTB类型的优化,把针对机器的优化放在首位,都是正确的思维。 2 针对机器优化的核心逻辑 针对机器进行优化的核心逻辑,是让机器有时间“懂你”。 “给机器时间和机会”就构成了信息流优化的核心逻辑。 3 给机器时间和机会 那么怎么做到呢? 与搜索引擎的优化思想非常不同,信息流的优化操作不仅不能频繁,反而需要特别谨慎。
如今,市面上已经有不少开源项目可以用于连接 B 站直播 WebSocket 获取信息流。但在实际使用中,常常发现它们并不能完全满足个性化需求。 ": { // 待观测 "status": 0, // 待观测 "master_list": [ ] } }}获取信息流认证秘钥该接口可以获取到对应直播间信息流的链接地址 MQ(Message Queue,消息队列)使用 Websocket 或 TCP 连接作为通道,具体格式为 弹幕协议 + 正文数据操作流程:连接信息流服务器节点 -> 发送认证包 -> 接收认证包回应 照着传即可 key string获取信息流认证秘钥接口提供的tokenprotover 说明:2 - 后续正文以 zlib 方式返回3 - 后续正文以 brotli 方式返回示例:00000000 -00000005: 3642 4643 2d45 3741 412d 3031 3041 2d31 6BFC-E7AA-010A-100000006: 3039 4544 3039 3443 4245