亚马逊发布51种语言数据集，助力多语言NLU研究

原创

用户11764306

发布于 2026-02-14 10:23:52

760

某机构发布51种语言数据集，助力多语言语言理解研究

MASSIVE数据集及多语言自然语言理解（MMNLU-22）竞赛和研讨会将帮助研究人员将自然语言理解技术扩展至地球上的每一种语言。

设想一下，全世界的人们都可以用他们的母语使用语音AI系统。

实现这一愿景的一种有前景的方法是“大规模多语言自然语言理解”，这是一种范式，即单个机器学习模型可以解析和理解来自多种类型不同语言的输入。通过学习跨语言的共享数据表示，该模型可以将知识从训练数据丰富的语言迁移到训练数据稀缺的语言。

今天，很高兴宣布与大规模多语言自然语言理解相关的三项成果。首先，发布一个名为MASSIVE的新数据集，该数据集由跨越51种语言的100万个带标注的话语组成，并附带开源代码，其中提供了如何进行大规模多语言自然语言理解建模的示例，并允许从业者复现论文中呈现的意图分类和槽位填充的基线结果。

其次，将使用MASSIVE数据集启动一项名为“2022年大规模多语言自然语言理解”的新竞赛。第三，将与在阿布扎比和线上举办的EMNLP 2022会议共同主办一个同名研讨会，该研讨会将重点展示竞赛结果，并包括受邀演讲者的报告以及来自提交的多语言自然语言处理论文的口头和海报展示。

某机构人工智能自然理解部门副总裁表示：“非常兴奋能与全球语言研究社区共享这个大规模多语言数据集。希望这个数据集能使世界各地的研究人员在 multilingual language understanding 领域取得新的进展，从而扩展会话式AI技术的可用性和覆盖范围。”

MASSIVE数据集

MASSIVE是一个并行数据集，意味着每一条话语都以全部51种语言提供。这使得模型能够学习具有相同意图的话语的共享表示，无论语言如何，从而促进了自然语言理解任务的跨语言训练。它也可以适用于其他自然语言处理任务，如机器翻译、多语言释义、对祈使形态学的新语言分析等。

自然语言理解是自然语言处理的一个子学科，是机器理解文本含义并识别相关实体的能力。例如，对于话语“纽约的气温是多少？”，一个自然语言理解模型可能会将意图分类为“weather_query”，并识别相关实体为“weather_descriptor: temperature”和“place_name: new york”。

特别关注的是自然语言理解作为口语理解的一个组成部分，在口语理解中，音频在执行自然语言理解之前被转换为文本。尽管像Alexa这样的基于口语理解的虚拟助手在过去十年中取得了重大的能力进步，但全球学术界和工业界的自然语言理解工作仍然局限于世界上7000多种语言中的一小部分。创建大规模多语言自然语言理解模型的一个困难是缺乏用于训练和评估的标记数据——特别是对于给定任务而言真实且对给定语言自然的数据。高自然度通常需要人工审核，这通常成本高昂。

MASSIVE包含100万个真实的、并行的、带标注的虚拟助手文本话语，涵盖51种语言、18个领域、60种意图和55个槽位。MASSIVE 是通过委托专业翻译人员将仅英文的 SLURP 数据集本地化或翻译成 50 种类型多样的语言（来自 29 个语系，包括低资源语言）而创建的。

下表将 MASSIVE 与其他自然语言理解数据集进行了比较：

名称	语言数量	每种语言的话语数量	领域	意图	槽位
MASSIVE	51	19,521	18	60	55
SLURP	1	16,521	18	60	55
NLU Evaluation Data	1	25,716	18	54	56
ATIS	1	5,871	1	26	129
ATIS with Hindi and Turkish	3	1,315-5,871	1	26	129
MultiATIS++	9	1,422-5,897	1	21-26	99-140
Snips	1	14,484	-	7	53
Snips with French	2	4,818	2	14-15	11-12
TOP	1	44,873	2	25	36
MTOP	6	15,195-22,288	11	104-113	72-75
Cross-Lingual Multilingual Task Oriented Dialog	3	5,083-43,323	3	12	11
Microsoft Dialog Challenge	1	38,276	3	11	29
FSC	1	30,043	-	31	-
CATSLU	1	16,258	4	-	94

已经发布了一篇描述该数据集并在 XLM-R 和 mT5 模型上呈现基线建模结果的论文。该数据集的工具以及用于基线结果的建模代码可在某代码仓库中获取。MASSIVE 采用 CC BY 4.0 许可，鼓励其在学术界和工业界得到最广泛的应用。

MMNLU竞赛和研讨会

MASSIVE 排行榜和 2022 年大规模多语言自然语言理解竞赛包含两个任务。第一个任务称为 MMNLU-22-Full，每个参赛者在完整 MASSIVE 数据集的所有 51 种语言上训练和测试单个模型。第二个任务称为 MMNLU-22-ZeroShot，每个参赛者仅使用英文标记数据微调预训练模型，并在所有 50 种非英语语言上进行测试。

这评估了模型泛化到新语言的能力，考虑到全球有许多语言几乎没有标记数据，这是一个重要的考量。零样本学习是将自然语言理解技术扩展到全球更多低资源语言的关键技术。

永久性的 MASSIVE 排行榜已经启动，2022 年大规模多语言自然语言理解的评估拆分将于 7 月 25 日发布。参赛者随后将有直到 8 月 8 日的时间在评估集上进行推理并提交预测结果，这些结果将用于确定获胜者。获胜者将被邀请在 2022 年大规模多语言自然语言理解研讨会上进行口头报告。

2022 年大规模多语言自然语言理解研讨会将与 EMNLP 2022 共同举办，将于 12 月 7 日或 8 日举行，既在阿布扎比现场进行，也在线上进行。诚邀提交涵盖自然语言理解中多语言现象广泛领域的论文，首次征稿通知即将发布。研讨会将邀请就与多语言和自然语言理解相关的各种主题的演讲者发言，以及 MMNLU-22 竞赛中表现最佳者的报告。

让自然语言理解技术扩展到地球上的每一种语言。一起来构建吧！

致谢

感谢为核心数据集贡献做出贡献的人员：某机构多位科学家及合作者；为产品与项目管理做出贡献的人员；为供应商管理做出贡献的人员；为文本到文本建模讨论做出贡献的人员；为项目管理和语言专业知识做出贡献的人员；为创建数据集的隐藏评估拆分做出贡献的人员；为研讨会组织做出贡献的人员；为排行榜和竞赛设置做出贡献的人员。FINISHED

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

网络安全