研究者使用 3 个 11B 的 PLM(T5-XXL、mT5-XXL、CPM-2)在多个数据集上评估了 PPT 的性能。 对于中文数据集,该研究基于 CPM-2 进行 PT。由于 CPM-2 不提供其他尺寸的模型,研究者将其与各种尺寸的 mT5 (Xue 等, 2021) 进行比较。
NEZHA-GEN CPM-Generate T5 T5-PEGASUS Mengzi-T5 盘古α EVA BART 闻仲 余元 RWKV NLU-NLG系列 UniLM Simbert RoFormer-sim CPM
目前,精简榜提供了 mT5-small/large/XXL 和 CPM-2 的评测结果。 智源指数评测方案体现出了「多层次」和「归一化」两个特点。
在训练大规模预训练模型时,要消耗大量的算力资源和时间,为了提升其产业的普适性和易用性,悟道团队搭建了⾼效预训练框架CPM-2:一个在编码、模型、训练、微调、推理AI全链路上的高效框架。 ?
为了提升产业普适性和易用性,悟道团队搭建了全链路高效预训练框架「CPM-2」,使得预训练效率大幅提升。 CPM-2 项目地址:https://github.com/TsinghuaAI/CPM-Generate 具体而言,CPM-2 有几大优势: 高效编码:研发了最高效、最抗噪的中文预训练语言模型编码,解决生僻字等问题
-2: Large-scale Cost-effective Pre-trained Language Models 标题:CPM-2:大规模高性价比的预训练语言模型 作者:Zhengyan Zhang 基于我们的高性价比流水线,我们预先训练了两个模型:110亿参数的编译码双语模型(CPM-2)和1980亿参数的MoE模型。在我们的实验中,我们比较了下游任务的CPM-2和mT5。 实验结果表明,CPM-2具有良好的通用语言智能。此外,我们还验证了InfMoE在单个GPU上对具有数百亿个参数的大规模模型进行推理时的有效性。 In our experiments, we compare CPM-2 with mT5 on downstream tasks. Experimental results show that CPM-2 has excellent general language intelligence.
CPM-2: Large-scale Cost-efficient Pre-trained Language Models.
2020年底,刘知远、曾国洋(现任面壁智能CTO)带领的面壁早期核心团队发布了首个中文大语言模型CPM-1,三年时间内陆续发布了CPM-2(110亿参数)、CPM-3、CPM-Ant、CPM-Bee等模型
/PanGu-alpha-tf/blob/f64a8985880b7050e804f205f846c5ff9ae8a5be/tf2gpt/model.py#L289 模型3: CPM 2.0 论文: CPM
他们也曾开发开源多个大模型,比如:国内首个中文大模型CPM-1、高效易用大模型CPM-2、可控持续大模型CPM-3…… 除此之外,法律、生物医学等垂直领域也开发了专有专用大模型。
实验结果如下表所示: 可以看到,在仅微调极少参数的情况下,OpenBMB 的模型在三个数据集上的性能已经超过了 CPM-2 和源 1.0。
CPM-2: Large-scale Cost-effective Pre-trained Language Models. (from Minlie Huang, Yang Liu) 7.
目前智源发布的大规模预训练模型CPM-2,以及mT5-small/large/XXL的评测结果已经在智源指数榜单上公布。
早在 2021 年 6 月,清华大学刘知远教授牵头的「悟道·文源」就发布了千亿 MoE 大模型 CPM-2 ,是国内最早关注到这一问题的 AI 团队之一,而其中的参与成员就包括面壁智能的初始团队。
他们训练出的CPM-1、CPM-2模型发布在了2021年北京智源大会上。 图注:韩旭参加2021年北京智源大会 (四) 不难想象,身兼数职的韩旭很忙,经常分身乏术。