首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏NewBeeNLP

    多任务学习经典品读:MMoE模型篇

    MMoE 模型在具有不同相关性的数据上的性能差距远小于 OMoE 模型和 Shared-Bottom 模型。 当我们比较 MMoE 模型和 OMoE 模型时,这种趋势尤为明显:在两个任务相同的极端情况下,MMoE 模型和 OMoE 模型之间的性能几乎没有差异;然而,当任务之间的相关性降低时,OMoE 模型的性能有明显的退化 ,而对 MMoE 模型的影响很小。 其次,当任务相关性为1时,OMoE模型的性能方差与MMoE模型的性能方差具有相似的鲁棒性,但当任务相关性降至0时,OMoE的鲁棒性明显下降。MMoE和OMoE之间的唯一区别在于是否存在多门结构。 可以看到MMoE的效果最好。

    2.1K30编辑于 2022-11-11
  • 来自专栏Soul Joy Hub

    多任务学习——【KDD 2018】MMoE

    是最原始的多任务学习模型 b) 是加入单门(one gate)的MoE layer的多任务学习模型, 其中: k 表示k个任务; n 表示n个expert network c) 是文章提出的MMOE

    45930发布于 2021-09-10
  • 来自专栏NewBeeNLP

    多任务学习经典品读:MMoE 应用篇

    的小伙伴可以参考我之前的文章:多任务学习经典品读:MMoE模型篇 文章聚焦于推荐系统的排序层,对于工业界多任务目标相互竞争以及用户反馈中的隐性选择偏差问题进行深入研究和解决。 2.模型结构 整体结构图 文章针对两个问题,使用Wide&Deep架构: 针对问题1,采用MMoE 代替 Deep层通用结构,将任务分为两大类:(更为详细可参考MMoE结构的上篇专栏) 1> 参与度目标 解决的办法则是类似wide&deep架构,在main tower 即前面的MMoE模型旁边,构建一个shallow tower。 结果表明:模型复杂性相同时,MMoE显著提高了参与度(engagement metric)和满意度(satisfaction metric)指标。 5.总结 这篇文章是MMoE模型的工程落地,可以看出多任务场景下,MMoE对比常用的shared-bottom在工业界的大规模数据部署使用上,效果提升。 2.

    1.3K30编辑于 2022-11-11
  • 来自专栏阿泽的学习笔记

    【CTR】MMoE:Google 多任务学习框架

    但常用的任务模型的预测质量通常对任务之间的关系很敏感(数据分布不同,ESMM 解决的也是这个问题),因此,google 提出多门混合专家算法(Multi-gate Mixture-of-Experts,以下简称 MMoE MMoE 算法在任务相关性较低时能够具有更好的性能,同时也可以提高模型的可训练性。作者也将 MMoE 应用于真实场景中,包括二分类和推荐系统,并取得了不错的成绩。 基于以上原因,作者提出了 MMoE 框架,旨在构建一个兼容性更强的多任务学习框架。 2.MMoE 本节我们详细介绍下 MMoE 框架。 所以,作者在 MoE 的基础上提出了 MMoE 模型,为每个任务都设置了一个 Gate 网路,旨在使得不同任务和不同数据可以多样化的使用共享层,其模型结构如下: ? 共享网络节省了大量计算资源,且 Gate 网络参数较少,所以 MMoE 模型很大程度上也保持了计算优势。 5.References Ma J, Zhao Z, Yi X, et al.

    2.7K10发布于 2020-07-21
  • 来自专栏null的专栏

    Multi-gate Mixture-of-Experts(MMoE

    Google于2018年提出了Multi-gate Mixture-of-Experts(MMoE)模型[1]来对任务之间相互关系建模。 2. 算法原理 MMoE模型并不是凭空产出的,是在前人的工作上做了很多改进。多任务学习经过多年的发展,历史上也出现了很多多任务学习的模型。 2.1. Multi-gate Mixture-of-Experts(MMoE)模型 从MMoE的名称来看,可以看到主要包括两个部分,分别为:Multi-gate(多门控网络)和Mixture-of-Experts Multi-gate Mixture-of-Experts(MMoE)模型 Multi-gate Mixture-of-Experts是One-gate Mixture-of-Experts的升级版本, 3.总结 通过结合门控网络和混合专家组成的MMoE模型,从实验的结论上来看,能够利用同一个模型对多个任务同时建模,同时能够对多个任务之间的联系和区别建模。

    1.5K20编辑于 2022-05-12
  • 来自专栏阿泽的学习笔记

    【CTR】MMoE-PosBias:Youtube 多任务学习框架

    推荐系统中会出现很多挑战,比如多目标问题、选择偏差问题问题等,为了解决这样的挑战,作者提出了 MMoE-PosBias 架构,利用 MMoE 框架解决多目标问题,并利用 Wide&Deep 框架来缓解选择偏差的问题 MMoE 上一篇论文有过介绍,选择偏差问题我们在之前介绍的阿里妈妈团队的多任务学习算法 ESMM 中也提到过,不过这里主要是位置上的选择偏差。 2.MMoE-PosBias 接下来,我们看一下具体内容。 所以作者使用 MMoE 作为多任务模型的框架,有助于从输入中学习到模块化的信息,从而更好的对多模态特征空间进行建模。 4.Conclusion 总结:作者首先介绍了推荐系统面临的两个挑战——多任务学习和选择偏差,为了解决这个问题,作者设计了一个大规模的多目标排序框架——MMoE-Posbias 框架,其采用了 MMoE

    2.9K30发布于 2020-07-21
  • 来自专栏大鹅专栏:大数据到机器学习

    多任务学习模型MMoE详解 Multi-gate Mixture-of-Experts 与代码实现

    Multi-gate Mixture-of-Experts(MMoE) MMoE目的就是相对于shared-bottom结构不明显增加模型参数的要求下捕捉任务的不同。 的效果近似,但是如果任务相关度很低,则OMoE的效果相对于MMoE明显下降,说明MMoE中的multi-gate的结构对于任务差异带来的冲突有一定的缓解作用。 MoE只有一个Gate输出,而MMoE是有多个输出。 )(mmoe_out) for mmoe_out in mmoe_outs] task_outputs = [] for mmoe_out, [froennnzix.png] 上面提到的MMoE模型存在的一个问题,它只能够针对共享的experts子网络进行有限的组合。因此,在MMoE模型结构的基础上,SNR模型来实现更灵活的网络参数共享。

    19.4K116发布于 2021-06-09
  • 来自专栏NewBeeNLP

    召回向排序靠齐:多目标排序蒸馏召回

    多目标蒸馏召回 腾讯提出了一个多目标MMoE蒸馏DSSM召回的方法DMTL(如图1所示)。 MMoE的两个目标是点击和阅读时长。 因此作者使用MMoE蒸馏DSSM模型,提升大盘的阅读时长。 对于点击任务,正样本是点击的内容,负样本按照点击频率随机采样的。负样本没有使用曝光未点击的样本,毕竟DMTL是一个召回模型,不是排序模型。 作者使用MMoE同时学习CTR和CVR,然后pCTCVR蒸馏给DSSM。MMoE是teacher网络,DSSM是student网络。 离线蒸馏方法 DMTL是同时训练MMoE和DSSM的。如果有大量的数据,训练的时间复杂度较高。我们可以先训练一版MMoE,然后将样本的logit保存下来,该logit可以用于指导DSSM训练。 在推荐系统中,DSSM和MMoE每天都会更新。我们可以将MMoE当天生成的logits保存一下,然后用于第二天DSSM的训练。

    1.7K10编辑于 2022-11-11
  • 来自专栏小小挖掘机

    RS Meet DL(68)-建模多任务学习中任务相关性的模型MMoE

    不过多任务学习的效果受不同任务之间的相关性影响较大,因此本文基于Mixture-of-Experts (MoE)模型,提出了一种显式建模任务相关性的模型Multi-gate Mixture-of-Experts (MMoE 3、MMoE模型 3.1 MoE模型 先来看一下Mixture-of-Experts (MoE)模型(文中后面称作 One-gate Mixture-of-Experts (OMoE)),如下图所示: 3.2 MMoE模型 相较于MoE模型,Multi-gate Mixture-of-Experts (MMoE)模型为每一个task设置了一个gate,使不同的任务和不同的数据可以多样化的使用共享层,模型结构如下

    1.7K10发布于 2019-10-28
  • 来自专栏机器之心

    YouTube视频推荐系统为什么那么强?看了这篇文章你就知道了

    图 2:用 MMoE 替换 shared-bottom 层。 在宽度&深度模型的深层部分,研究者利用了一个多任务学习模型 MMoE。 「浅塔」的输出与 MMoE 模型的输出相结合,这也是宽度&深度模型架构的关键组成部分。 如此一来,模型将更加关注视频的位置。 结果 该论文的结果表明,用 MMoE 替换 shared-bottom 层可以在参与度(观看推荐视频花费的时间)和满意度(调查反馈)两个目标中提升模型的性能。 增加 MMoE 中的专家层数量和乘法的数量可以进一步提升模型的性能。但由于计算上的限制,现实部署中无法实现这一点。 ? 表 1:MMoE 模型的 YouTube 实时实验结果。 与只在 MMoE 模型中添加特征相比,这是一项显著的改进。 ? 表 2:建模视频位置偏见的 YouTube 实时实验结果。

    89450发布于 2019-10-15
  • 来自专栏AI科技大本营的专栏

    Google最新论文:Youtube视频推荐如何做多目标排序

    为了解决这些问题,我们引入了MMoE[2]来优化多目标排序目标。另外,我们改进了W & D框架来解决用户反馈的selection bias。 对于这两类稍微有点冲突的多目标任务,我们引入MMoE的结构来解决,并通过门结构来加权选择更好地学习独立的目标。 MMoE结构 如前所述,本文将需要学习的多目标分为参与度和满意度两类,如果是分类问题就用cross entropy loss学习;如果是回归问题则用square loss。 因此为了同时学习多个互相冲突的目标并达到平衡,我们采用并扩展MMoE结构来解决多目标冲突问题。 MMoE结构设计的目的就是希望能够在不引入过多模型参数的前提下能够捕捉学习不同任务之间的区别。 可以看出MMoE结构在基线的基础上,在engagement和satisfaction的两个目标上均有显著提升。 ? 与此同时,我们可以看到排序位置的1-9上的ctr分布如下图所示。

    90730发布于 2019-11-18
  • 来自专栏NewBeeNLP

    浅谈 多任务学习 在推荐系统中的应用

    Shared-bottom, OMoE, MMoE 文章提出的模型MMoE目的就是相对于shared-bottom结构不明显增加模型参数的要求下捕捉任务的不同。 实际上,如果任务相关度很低,则OMoE的效果相对于MMoE明显下降,说明MMoE中的multi-gate的结构对于「任务差异带来的冲突」有一定的缓解作用。 MMoE,以及提出了shallow tower解决position bias的方法。 MMoE比较适合这种多个任务之间联系不紧密、甚至冲突的场景。 完整的模型结构如下图所示。 简言之,SNR和MMoE的不同之处就是,MMoE拿多个子网络的输出做加权直接输入到了每个任务各自的tower中;而SNR对不同子网络的输出进行组合又输入到了下一层子网络,形成子网络的组合。

    2.4K20编辑于 2022-01-19
  • 来自专栏腾讯大数据的专栏

    开源项目介绍 | Angel-高性能分布式机器学习平台

    .文档和测试 你将收获: 1.理解图神经网络算法的实现逻辑,熟悉PyTorch、Angel、Spark等组件功能 2.分布式系统的性能优化实践经验 【题目二】 基于PyTorch On Angel实现MMoE 多任务学习算法模型 内容: MMoE模型可以从数据中学习建模任务间的相关性,在许多真实场景中得到大规模的应用,如在电影推荐中不仅推荐用户可能观看的电影,还需要优化用户对电影的喜爱程度的预估;结合两个任务推荐的电影 预备知识: 1.MMoE论文 https://dl.acm.org/doi/pdf/10.1145/3219819.3220007 2.Java , Python, Scala 3.PyTorch /Spark / Angel 预期结果: 1.基于PyTorch On Angel实现MMoE算法 2.在多种数据集(例如MMoE论文中的数据集)上有高效的训练性能、正确的AUC等关键指标 3.文档和测试 你将收获

    1.9K20发布于 2021-06-02
  • 来自专栏炼丹笔记

    推荐系统多目标建模技巧

    本文,我来分享一下在多目标优化问题上一些思路,包括多目标任务的技巧、算法模型MMOE、SNR、ESMM、PLE等。 ,正是本篇论文MMOE关注的重点,在以往的一些模型当中,通常优化一方面的效果就会损失另一方面的效果,所以这是一个Trade-off的过程。 MMoE(Multi-gate Mixture-of-Experts)是在MOE的基础上,使用了多个门控网络, k个任就对应k个门控网络。 创新 上面提到的MMoE模型存在的一个问题,它只能够针对共享的experts子网络进行有限的组合。因此,在MMoE模型结构的基础上,本文提出了优化的SNR模型来实现更灵活的网络参数共享。 相对于前面的MMOE、SNR和ESMM模型,PLE模型主要解决两个问题:(1)MMOE中所有的Expert是被所有任务所共享的,这可能无法捕捉到任务之间更复杂的关系,从而给部分任务带来一定的噪声;(2)

    1.9K10编辑于 2022-05-23
  • 来自专栏机器学习与推荐算法

    基于Pytorch的多任务推荐系统工具包发布

    MTReclib已提供7种多任务模型的实现,包括SingleTask, Shared-Bottom, OMoE[1], MMoE[2], PLE[3], AITM[4], MetaHeac[5]。 OMoE MMoE: 在MoE中,不同任务的gating值相同,使得送入不同任务tower的特征表示相同。 MMoE为了更好的建模任务间的关系,将MoE中的gate改进为任务特定的,每个任务有一个单独gate来控制多个Expert的权重。 MMoE PLE: 考虑到任务间可能存在冲突,导致多任务学习中一个任务效果上升另一个任务效果下降的情况。 PLE将MMoE的底部进一步拆分为了任务共享(Task-shared)和任务特定(Task-specific)的模块。该文章被评为RecSys2020 Best Paper。

    98220编辑于 2022-04-08
  • 来自专栏小小挖掘机

    RS Meet DL(69)-youtube视频推荐中的多任务排序模型

    Video to Watch Next: A Multitask Ranking System》 在上一篇文章中,我们介绍了一种多任务学习的模型Multi-gate Mixture-of-Experts (MMoE 为了解决以上的挑战,youtube采用了一种多任务学习框架,该框架基于Multi-gate Mixture-of-Experts (MMoE),一起来学习一下吧。 MMoE使不同的任务和不同的数据可以多样化的使用共享层。 这里简单回归一下模型的结构: 上图中左图是一般的MTL框架,右侧是MMoE。 3、实验及结果 这里主要对比了两个模型,一个是一般的MTL结构,一个是MMoE结构。

    1.4K21发布于 2019-11-12
  • 来自专栏AI科技大本营的专栏

    总点第一个视频产生选择偏差?Youtube用“浅塔”来纠正

    图 2:用 MMoE 替换 shared-bottom 层 宽度&深度模型的深层部分使用了多任务学习模型 MMoEMMoE 模型的思想主要是基于不同目标之间可以高效地共享权重。底部共享层被分成多个专家层,用于预测不同的目标。 与共享层结构的模型相比,如果不同目标之间的相关性越低,那么 MMoE 的训练过程所受影响也会更小。 ? 浅塔的输出与 MMoE 模型的输出相结合,构成了宽度&深度模型结构的主要组成部分。基于这种方法,模型就会更加关注到视频的位置。 与仅作为 MMoE 模型的输入特征相比较,这是一个显著的提升。 ?

    59510发布于 2019-11-12
  • 来自专栏炼丹笔记

    这些我全要!推荐系统一石二鸟之道

    本文,我来分享一下在多目标优化问题上一些思路,包括多目标任务的技巧、算法模型MMOE、SNR、ESMM、PLE等。 MMoE ? MMoE(Multi-gate Mixture-of-Experts)是在MOE的基础上,使用了多个门控网络, k个任就对应k个门控网络。 上面提到的MMoE模型存在的一个问题,它只能够针对共享的experts子网络进行有限的组合。因此,在MMoE模型结构的基础上,本文提出了优化的SNR模型来实现更灵活的网络参数共享。 相对于前面的MMOE、SNR和ESMM模型,PLE模型主要解决两个问题:(1)MMOE中所有的Expert是被所有任务所共享的,这可能无法捕捉到任务之间更复杂的关系,从而给部分任务带来一定的噪声;(2)

    1K20发布于 2021-05-14
  • 来自专栏炼丹笔记

    一石二鸟:推荐算法多目标建模技巧

    本文,我来分享一下在多目标优化问题上一些思路,包括多目标任务的技巧、算法模型MMOE、SNR、ESMM、PLE等。 ,正是本篇论文MMOE关注的重点,在以往的一些模型当中,通常优化一方面的效果就会损失另一方面的效果,所以这是一个Trade-off的过程。 MMoE(Multi-gate Mixture-of-Experts)是在MOE的基础上,使用了多个门控网络, k个任就对应k个门控网络。 创新 上面提到的MMoE模型存在的一个问题,它只能够针对共享的experts子网络进行有限的组合。因此,在MMoE模型结构的基础上,本文提出了优化的SNR模型来实现更灵活的网络参数共享。 相对于前面的MMOE、SNR和ESMM模型,PLE模型主要解决两个问题:(1)MMOE中所有的Expert是被所有任务所共享的,这可能无法捕捉到任务之间更复杂的关系,从而给部分任务带来一定的噪声;(2)

    1.7K41编辑于 2022-10-27
  • 来自专栏炼丹笔记

    多任务学习如何做到你好我也好?

    门机制 MOE首先提出对底部的一些experts进行共享并且通过gating的网络将experts进行组合; MMOE对MOE进行了拓展,MMOE对每个任务使用不同的门来获得MTL中不同的融合权重; MRAN 尽管MMOE在理论上有可能收敛到我们的网络设计中,但是网络设计的先验知识非常重要,在实际应用中很难发现收敛路径。 Youtube Vedio推荐系统,MMOE 采用了类似MMOE的方案通过gating机制对不同专家进行组合, MMOE的方式可以较好地捕捉任务之间的差异并且对目标进行优化. 最终模型对于任务的预测为: , 其中表示任务k的tower网络; 与MMOE相比,CGC删除了任务的塔式网络和其他任务的特定专家之间的连接, 使不同任务的专家专注于学习不同的知识。 我们发现CGC和PLE的专家的权重和MMOE以及ML-MMOE呈现出了非常大的差异。

    2.4K20发布于 2021-05-14
领券