2022年度十大热门技术论文盘点

原创

用户11764306

发布于 2026-02-22 15:23:09

1150

一、Amazon Redshift 的再创造

2012年，某机构云服务（AWS）通过推出 Amazon Redshift，彻底变革了数据仓库行业。这是首个完全托管、可扩展至PB级、企业级的云数据仓库。Amazon Redshift 使得利用现有商业智能工具高效分析大量数据变得简单且成本低廉。

这项云服务相较于传统的本地部署数据仓库解决方案是一次巨大的飞跃，后者成本高昂、不具备弹性，并且需要大量专业知识进行调优和运维。客户纷纷采用 Amazon Redshift，使其成为AWS中增长最快的服务。如今，数以万计的客户在AWS的全球基础设施中使用 Redshift，每日处理的数据量达到EB级。

阅读摘要全文并下载论文

二、AlexaTM 20B：基于大规模多语言序列到序列模型的少样本学习

在这项工作中，我们证明了在多语言大规模的序列到序列（seq2seq）模型上，通过去噪和因果语言建模（CLM）任务的混合预训练，在各种任务的少样本学习上比仅解码器模型更高效。我们训练了一个名为 Alexa Teacher Model (AlexaTM 20B) 的200亿参数的多语言序列到序列模型，并展示了它在单次总结任务上取得了最先进的性能，超越了规模更大的5400亿参数的 PaLM 纯解码器模型。

AlexaTM 20B 在 Flores-101 数据集上，对于模型支持的几乎所有语言对（阿拉伯语、英语、法语、德语、印地语、意大利语、日语、马拉地语、葡萄牙语、西班牙语、泰米尔语和泰卢固语），在单次机器翻译任务中也达到了最先进的水平，特别是在低资源语言上。我们还展示了在零样本设置下，AlexaTM 20B 在 SuperGLUE 和 SQuADv2 数据集上超越了 GPT3（175B），并在 XNLI、XCOPA、Paws-X 和 XWinograd 等多语言任务上提供了最先进的性能。总之，我们的结果为 seq2seq 模型作为大规模语言模型训练中纯解码器模型的强大替代方案提供了令人信服的论据。

阅读并下载论文

三、Amazon DynamoDB：一个可扩展、性能可预测且完全托管的NoSQL数据库服务

Amazon DynamoDB 是一个 NoSQL 云数据库服务，可在任何规模下提供一致的性能。数十万客户信赖 DynamoDB，因为它具备以下基本特性：一致的性能、可用性、持久性以及完全托管的无服务器体验。在 2021 年为期 66 小时的某机构会员日购物活动中，包括 Alexa、某机构网站群和某机构物流中心在内的某机构系统，对 DynamoDB 的 API 调用次数达到数万亿次，峰值达到每秒 8920 万次请求，同时以毫秒级性能实现了高可用性。

自 2012 年 DynamoDB 推出以来，其设计和实现一直在根据我们的运维经验不断演进。该系统已成功处理了与公平性、跨分区流量不平衡、监控和自动化系统操作相关的问题，而并未影响可用性或性能。可靠性至关重要，因为即使是最轻微的中断也会对客户产生重大影响。本文介绍了我们在超大规模下运维 DynamoDB 的经验，以及架构如何持续演进以满足客户工作负载日益增长的需求。

阅读并下载论文

四、将图像翻译为地图

我们将即时地图构建，即将图像转换为世界的俯视图，视为一个翻译问题。我们展示了一种新颖的 Transformer 网络如何被用于在一个端到端的网络中，直接将图像和视频映射为世界的俯视图或鸟瞰图。我们假设图像中的垂直扫描线与俯视图中通过相机位置的光线之间存在一一对应关系。

这使我们能够将基于图像的地图生成问题定义为一组序列到序列的翻译任务。将问题视为翻译，允许网络在解释每个像素的角色时利用图像的上下文。这种基于问题强物理基础的约束公式，产生了一个仅在水平方向上进行卷积的受限 Transformer 网络。该结构使我们能够在训练时高效利用数据，并在三个大规模数据集的即时地图构建中取得了最先进的结果，包括在 nuScenes 和 Argoverse 数据集上分别比现有最佳方法相对提升了 15% 和 30% 的性能。

阅读并下载论文

五、非平稳环境下的A/B测试

A/B 测试，也称为在线对照实验，已被数据驱动型企业大规模用于指导决策和测试创新想法。同时，非平稳性，例如一天中的时间效应，在各种业务指标中普遍存在。我们表明，未能妥善处理非平稳性可能导致 A/B 测试在统计上效率低下或无效，从而得出错误结论。为解决这些问题，我们开发了一个新的框架，为非平稳 A/B 测试提供合适的建模和充分的统计分析。在不改变现有 A/B 测试流程的基础设施的前提下，我们提出了一种新的估计量，该估计量将时间视为一个连续协变量，以执行具有依赖于样本的分层数量的事后分层。我们在非平稳性下的自然极限区域内证明了中心极限定理，从而使得有效的大样本统计推断成为可能。我们证明了所提出的估计量在所有估计量中达到了最优渐近方差。如果 A/B 测试的实验设计阶段允许，我们提出了一种新的按时间分组随机化方法，以便在存在时间非平稳性的情况下，更好地平衡处理组和对照组的分配。我们简要介绍了数值实验，以说明理论分析。

阅读并下载论文

六、Alexa教师模型：用于自然语言理解系统的数十亿参数编码器的预训练与蒸馏

我们展示了一个大规模实验的结果，该实验涉及对非嵌入参数数量从 7 亿到 93 亿不等的编码器进行预训练，随后将它们蒸馏成参数范围从 1700 万到 1.7 亿的较小模型，并将它们应用于虚拟助手系统的自然语言理解组件。尽管我们使用了 70% 的口语形式数据进行训练，但当在书面形式的跨语言自然语言推理语料库上进行评估时，我们的教师模型表现与 XLM-R 和 mT5 相当。我们使用来自我们系统的领域内数据对教师模型进行了第二阶段的预训练，使得意图分类的错误率相对降低了 3.86%，槽位填充的错误率相对降低了 7.01%。我们发现，与仅在公共数据上训练（第一阶段）的 23 亿参数教师模型相比，从我们的第二阶段教师模型蒸馏出的 1.7 亿参数模型，其意图分类错误率改善了 2.88%，槽位填充错误率改善了 7.69%，这强调了领域内数据对于预训练的重要性。当使用标记的 NLU 数据进行离线评估时，我们 1700 万参数的第二阶段蒸馏模型，分别以 4.23% 到 6.14% 的优势优于 XLM-R Base（8500 万参数）和 DistillBERT（4200 万参数）。最后，我们展示了在一个完整的虚拟助手实验平台上的结果，在该平台上，使用我们的预训练和蒸馏流程训练的模型，在全系统用户不满意的自动测量指标上，比从 8500 万参数教师模型蒸馏出的模型性能高出 3.74% 到 4.91%。

阅读并下载论文

七、超参数优化的自动终止

贝叶斯优化是机器学习中超参数优化广泛流行的方法。其核心是，BO 迭代评估有希望的配置，直到用户定义的预算（如挂钟时间或迭代次数）耗尽。虽然调优后的最终性能在很大程度上取决于提供的预算，但很难预先指定一个最优值。

在这项工作中，我们为 BO 提出了一个有效且直观的终止标准，如果优化过程足够接近全局最优，它可以自动停止。我们的关键见解是，真实目标（在测试数据上的预测性能）和可计算目标（验证性能）之间的差异表明，一旦优化目标上的次优性被统计估计误差所主导，就应该停止。通过在广泛的真实世界 HPO 问题和基线上的实验，我们表明我们的终止标准在测试性能和优化时间之间实现了更好的权衡。此外，我们发现过拟合可能发生在 HPO 的背景下，这在文献中可以说是一个被忽视的问题，并展示了我们的终止标准如何有助于在小型和大型数据集上缓解这种现象。

阅读并下载论文

八、使用 AuctionGym 学习竞价

在线广告机会通过拍卖进行销售，这在全球网络每天发生数十亿次。参与这些拍卖的广告主需要决定一个竞价策略：他们愿意为给定的展示机会出价多少。

决定这样的策略并非易事，因为重复拍卖机制具有交互性和反应性。实际上，广告主无法观察到未提交出价的反事实结果，而成功的广告主会根据竞争对手的出价调整自己的策略。这些特性使得仅基于记录数据来有效学习和评估竞价策略变得复杂。

阅读摘要全文并下载论文

九、验证因果推断模型

进行因果推断的根本挑战在于任何单元的反事实结果都无法完全观测到。此外，在观察性研究中，处理分配很可能存在混杂因素。在给定预处理协变量的无混杂条件下，已经出现了许多用于因果推断的统计方法，包括：基于倾向评分的方法、基于预后评分的方法以及双重稳健方法。遗憾的是，对于应用研究人员来说，不存在能够普遍表现最优的“一刀切”式因果方法。在实践中，因果方法主要是在手工制作的模拟数据上进行定量评估。这种数据生成过程的价值有限，因为它们通常是现实的程式化模型。为了易处理性而被简化，缺乏现实世界数据的复杂性。对于应用研究人员来说，理解一个方法对于手头数据的效果如何至关重要。我们的工作引入了一个基于深度生成模型的框架 Credence，用于验证因果推断方法。该框架的新颖之处在于它能够生成锚定在观测样本经验分布上的合成数据，因此与后者几乎无法区分。该方法允许用户指定因果效应的形式和大小以及作为协变量函数的混杂偏差的真实情况。因此，生成的模拟数据集可用于评估各种因果估计方法在应用于类似于观测样本的数据时的潜在性能。我们通过一项广泛的模拟研究以及来自 Lalonde 和 Project STAR 研究的两个现实世界数据应用，展示了 Credence 准确评估因果估计技术相对性能的能力。

阅读并下载论文

十、个性化互补商品推荐

互补商品推荐旨在提供通常一起购买以满足联合需求的商品建议。现有工作主要关注在群体层面上建模商品关系，但未考虑不同客户的个性化偏好。在本文中，我们提出了一个用于个性化互补商品推荐的框架，能够推荐符合客户需求和偏好的商品。具体来说，我们分别使用图注意力网络和序列行为Transformer来建模商品关系和用户偏好。这两个网络通过个性化重排和对比学习结合在一起，其中用户和商品嵌入以端到端的方式联合学习。该系统通过学习客户的购买历史以及客户与商品之间的相关性来识别不同的客户兴趣。实验结果表明，我们的模型受益于学习个性化信息，并在真实生产数据上优于非个性化方法。

阅读并下载论文FINISHED

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

机器学习