搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器之心
一个「PPT」框架，让超大模型调参变简单：清华刘知远、黄民烈团队力作
研究者使用 3 个 11B 的 PLM（T5-XXL、mT5-XXL、CPM-2）在多个数据集上评估了 PPT 的性能。对于中文数据集，该研究基于 CPM-2 进行 PT。由于 CPM-2 不提供其他尺寸的模型，研究者将其与各种尺寸的 mT5 (Xue 等, 2021) 进行比较。
94210编辑于 2023-03-29
来自专栏机器学习AI算法工程
高质量中文预训练模型汇总
NEZHA-GEN CPM-Generate T5 T5-PEGASUS Mengzi-T5 盘古α EVA BART 闻仲余元 RWKV NLU-NLG系列 UniLM Simbert RoFormer-sim CPM
2.9K10编辑于 2022-06-02
来自专栏机器之心
中文世界又多一个评测语言大模型能力的基准CUGE，覆盖17种主流NLP任务
目前，精简榜提供了 mT5-small/large/XXL 和 CPM-2 的评测结果。智源指数评测方案体现出了「多层次」和「归一化」两个特点。
1.7K10编辑于 2022-01-20
来自专栏量子位
1.75万亿参数、在国产超算上训练，刚刚智源发布了全球最大预训练模型“悟道2.0”
在训练大规模预训练模型时，要消耗大量的算力资源和时间，为了提升其产业的普适性和易用性，悟道团队搭建了⾼效预训练框架CPM-2：一个在编码、模型、训练、微调、推理AI全链路上的高效框架。 ?
1.1K30发布于 2021-06-17
来自专栏机器之心
从「大炼模型」到「炼大模型」：1.75万亿参数，全球最大预训练模型「悟道 2.0」问世
为了提升产业普适性和易用性，悟道团队搭建了全链路高效预训练框架「CPM-2」，使得预训练效率大幅提升。 CPM-2 项目地址：https://github.com/TsinghuaAI/CPM-Generate 具体而言，CPM-2 有几大优势：高效编码：研发了最高效、最抗噪的中文预训练语言模型编码，解决生僻字等问题
1.2K20编辑于 2023-03-29
来自专栏arXiv每日学术速递
自然语言处理学术速递[6.22]
-2: Large-scale Cost-effective Pre-trained Language Models 标题：CPM-2：大规模高性价比的预训练语言模型作者：Zhengyan Zhang 基于我们的高性价比流水线，我们预先训练了两个模型：110亿参数的编译码双语模型（CPM-2）和1980亿参数的MoE模型。在我们的实验中，我们比较了下游任务的CPM-2和mT5。实验结果表明，CPM-2具有良好的通用语言智能。此外，我们还验证了InfMoE在单个GPU上对具有数百亿个参数的大规模模型进行推理时的有效性。 In our experiments, we compare CPM-2 with mT5 on downstream tasks. Experimental results show that CPM-2 has excellent general language intelligence.
1.2K30发布于 2021-07-02
来自专栏对白的算法屋
千元显卡玩转百亿大模型，清华推出工具包BMInf让模型推理轻而易举
CPM-2: Large-scale Cost-efficient Pre-trained Language Models.
99720编辑于 2022-04-01
来自专栏技术人生黄勇
仅4B参数！面壁端侧模型MiniCPM 3.0达到GPT-3.5水平
2020年底，刘知远、曾国洋（现任面壁智能CTO）带领的面壁早期核心团队发布了首个中文大语言模型CPM-1，三年时间内陆续发布了CPM-2（110亿参数）、CPM-3、CPM-Ant、CPM-Bee等模型
72410编辑于 2024-12-09
来自专栏AI工程
盘点一下今年以来的各种大模型们
/PanGu-alpha-tf/blob/f64a8985880b7050e804f205f846c5ff9ae8a5be/tf2gpt/model.py#L289 模型3: CPM 2.0 论文： CPM
1.4K30编辑于 2022-03-30
来自专栏量子位
知乎大模型「知海图AI」上线！产品官宣即内测，为4亿用户摘取「热榜摘要」
他们也曾开发开源多个大模型，比如：国内首个中文大模型CPM-1、高效易用大模型CPM-2、可控持续大模型CPM-3…… 除此之外，法律、生物医学等垂直领域也开发了专有专用大模型。
44110编辑于 2023-05-06
来自专栏新智元
干掉「标题党」，清华团队又一开源力作！
实验结果如下表所示：可以看到，在仅微调极少参数的情况下，OpenBMB 的模型在三个数据集上的性能已经超过了 CPM-2 和源 1.0。
62630编辑于 2022-09-29
来自专栏机器之心
7 Papers & Radios | 升级版StyleGAN生成年轻的LeCun、吴恩达，CVPR 2021获奖论文
CPM-2: Large-scale Cost-effective Pre-trained Language Models. (from Minlie Huang, Yang Liu) 7.
53210编辑于 2023-03-29
来自专栏AI科技评论
中文语言能力评测基准「智源指数」问世：覆盖17种主流任务，19个代表性数据集，更全面、更均衡
目前智源发布的大规模预训练模型CPM-2，以及mT5-small/large/XXL的评测结果已经在智源指数榜单上公布。
81110编辑于 2022-01-21
来自专栏AI科技评论
MoE 高效训练的 A/B 面：与魔鬼做交易，用「显存」换「性能」
早在 2021 年 6 月，清华大学刘知远教授牵头的「悟道·文源」就发布了千亿 MoE 大模型 CPM-2 ，是国内最早关注到这一问题的 AI 团队之一，而其中的参与成员就包括面壁智能的初始团队。
1.5K10编辑于 2024-06-03
来自专栏AI科技评论
清华韩旭：一个“普通”人的热爱与执着
他们训练出的CPM-1、CPM-2模型发布在了2021年北京智源大会上。图注：韩旭参加2021年北京智源大会（四）不难想象，身兼数职的韩旭很忙，经常分身乏术。
91720编辑于 2023-04-26

一个「PPT」框架，让超大模型调参变简单：清华刘知远、黄民烈团队力作

高质量中文预训练模型汇总

中文世界又多一个评测语言大模型能力的基准CUGE，覆盖17种主流NLP任务

1.75万亿参数、在国产超算上训练，刚刚智源发布了全球最大预训练模型“悟道2.0”

从「大炼模型」到「炼大模型」：1.75万亿参数，全球最大预训练模型「悟道 2.0」问世

自然语言处理学术速递[6.22]

千元显卡玩转百亿大模型，清华推出工具包BMInf让模型推理轻而易举

仅4B参数！面壁端侧模型MiniCPM 3.0达到GPT-3.5水平

盘点一下今年以来的各种大模型们

知乎大模型「知海图AI」上线！产品官宣即内测，为4亿用户摘取「热榜摘要」

干掉「标题党」，清华团队又一开源力作！

7 Papers & Radios | 升级版StyleGAN生成年轻的LeCun、吴恩达，CVPR 2021获奖论文

中文语言能力评测基准「智源指数」问世：覆盖17种主流任务，19个代表性数据集，更全面、更均衡

MoE 高效训练的 A/B 面：与魔鬼做交易，用「显存」换「性能」

清华韩旭：一个“普通”人的热爱与执着

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

一个「PPT」框架，让超大模型调参变简单：清华刘知远、黄民烈团队力作

高质量中文预训练模型汇总

中文世界又多一个评测语言大模型能力的基准CUGE，覆盖17种主流NLP任务

1.75万亿参数、在国产超算上训练，刚刚智源发布了全球最大预训练模型“悟道2.0”

从「大炼模型」到「炼大模型」：1.75万亿参数，全球最大预训练模型「悟道 2.0」问世

自然语言处理学术速递[6.22]

千元显卡玩转百亿大模型， 清华推出工具包BMInf让模型推理轻而易举

仅4B参数！面壁端侧模型MiniCPM 3.0达到GPT-3.5水平

盘点一下今年以来的各种大模型们

知乎大模型「知海图AI」上线！产品官宣即内测，为4亿用户摘取「热榜摘要」

干掉「标题党」，清华团队又一开源力作！

7 Papers & Radios | 升级版StyleGAN生成年轻的LeCun、吴恩达，CVPR 2021获奖论文

中文语言能力评测基准「智源指数」问世：覆盖17种主流任务，19个代表性数据集，更全面、更均衡

MoE 高效训练的 A/B 面：与魔鬼做交易，用「显存」换「性能」

清华韩旭：一个“普通”人的热爱与执着

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

千元显卡玩转百亿大模型，清华推出工具包BMInf让模型推理轻而易举