首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器之心

    一个「PPT」框架,让超大模型调参变简单:清华刘知远、黄民烈团队力作

    研究者使用 3 个 11B 的 PLM(T5-XXL、mT5-XXL、CPM-2)在多个数据集上评估了 PPT 的性能。 对于中文数据集,该研究基于 CPM-2 进行 PT。由于 CPM-2 不提供其他尺寸的模型,研究者将其与各种尺寸的 mT5 (Xue 等, 2021) 进行比较。

    94210编辑于 2023-03-29
  • 来自专栏机器学习AI算法工程

    高质量中文预训练模型汇总

    NEZHA-GEN CPM-Generate T5 T5-PEGASUS Mengzi-T5 盘古α EVA BART 闻仲 余元 RWKV NLU-NLG系列 UniLM Simbert RoFormer-sim CPM

    2.9K10编辑于 2022-06-02
  • 来自专栏机器之心

    中文世界又多一个评测语言大模型能力的基准CUGE,覆盖17种主流NLP任务

    目前,精简榜提供了 mT5-small/large/XXL 和 CPM-2 的评测结果。 智源指数评测方案体现出了「多层次」和「归一化」两个特点。

    1.7K10编辑于 2022-01-20
  • 来自专栏量子位

    1.75万亿参数、在国产超算上训练,刚刚智源发布了全球最大预训练模型“悟道2.0”

    在训练大规模预训练模型时,要消耗大量的算力资源和时间,为了提升其产业的普适性和易用性,悟道团队搭建了⾼效预训练框架CPM-2:一个在编码、模型、训练、微调、推理AI全链路上的高效框架。 ?

    1.1K30发布于 2021-06-17
  • 来自专栏机器之心

    从「大炼模型」到「炼大模型」:1.75万亿参数,全球最大预训练模型「悟道 2.0」问世

    为了提升产业普适性和易用性,悟道团队搭建了全链路高效预训练框架「CPM-2」,使得预训练效率大幅提升。 CPM-2 项目地址:https://github.com/TsinghuaAI/CPM-Generate 具体而言,CPM-2 有几大优势: 高效编码:研发了最高效、最抗噪的中文预训练语言模型编码,解决生僻字等问题

    1.2K20编辑于 2023-03-29
  • 来自专栏arXiv每日学术速递

    自然语言处理学术速递[6.22]

    -2: Large-scale Cost-effective Pre-trained Language Models 标题:CPM-2:大规模高性价比的预训练语言模型 作者:Zhengyan Zhang 基于我们的高性价比流水线,我们预先训练了两个模型:110亿参数的编译码双语模型(CPM-2)和1980亿参数的MoE模型。在我们的实验中,我们比较了下游任务的CPM-2和mT5。 实验结果表明,CPM-2具有良好的通用语言智能。此外,我们还验证了InfMoE在单个GPU上对具有数百亿个参数的大规模模型进行推理时的有效性。 In our experiments, we compare CPM-2 with mT5 on downstream tasks. Experimental results show that CPM-2 has excellent general language intelligence.

    1.2K30发布于 2021-07-02
  • 来自专栏对白的算法屋

    千元显卡玩转百亿大模型, 清华推出工具包BMInf让模型推理轻而易举

    CPM-2: Large-scale Cost-efficient Pre-trained Language Models.

    99720编辑于 2022-04-01
  • 来自专栏技术人生黄勇

    仅4B参数!面壁端侧模型MiniCPM 3.0达到GPT-3.5水平

    2020年底,刘知远、曾国洋(现任面壁智能CTO)带领的面壁早期核心团队发布了首个中文大语言模型CPM-1,三年时间内陆续发布了CPM-2(110亿参数)、CPM-3、CPM-Ant、CPM-Bee等模型

    72410编辑于 2024-12-09
  • 来自专栏AI工程

    盘点一下今年以来的各种大模型们

    /PanGu-alpha-tf/blob/f64a8985880b7050e804f205f846c5ff9ae8a5be/tf2gpt/model.py#L289 模型3: CPM 2.0 论文: CPM

    1.4K30编辑于 2022-03-30
  • 来自专栏量子位

    知乎大模型「知海图AI」上线!产品官宣即内测,为4亿用户摘取「热榜摘要」

    他们也曾开发开源多个大模型,比如:国内首个中文大模型CPM-1、高效易用大模型CPM-2、可控持续大模型CPM-3…… 除此之外,法律、生物医学等垂直领域也开发了专有专用大模型。

    44110编辑于 2023-05-06
  • 来自专栏新智元

    干掉「标题党」,清华团队又一开源力作!

    实验结果如下表所示: 可以看到,在仅微调极少参数的情况下,OpenBMB 的模型在三个数据集上的性能已经超过了 CPM-2 和源 1.0。

    62630编辑于 2022-09-29
  • 来自专栏机器之心

    7 Papers & Radios | 升级版StyleGAN生成年轻的LeCun、吴恩达,CVPR 2021获奖论文

    CPM-2: Large-scale Cost-effective Pre-trained Language Models.  (from Minlie Huang, Yang Liu) 7.

    53210编辑于 2023-03-29
  • 来自专栏AI科技评论

    中文语言能力评测基准「智源指数」问世:覆盖17种主流任务,19个代表性数据集,更全面、更均衡

    目前智源发布的大规模预训练模型CPM-2,以及mT5-small/large/XXL的评测结果已经在智源指数榜单上公布。

    81110编辑于 2022-01-21
  • 来自专栏AI科技评论

    MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」

    早在 2021 年 6 月,清华大学刘知远教授牵头的「悟道·文源」就发布了千亿 MoE 大模型 CPM-2 ,是国内最早关注到这一问题的 AI 团队之一,而其中的参与成员就包括面壁智能的初始团队。

    1.5K10编辑于 2024-06-03
  • 来自专栏AI科技评论

    清华韩旭:一个“普通”人的热爱与执着

    他们训练出的CPM-1、CPM-2模型发布在了2021年北京智源大会上。 图注:韩旭参加2021年北京智源大会 (四) 不难想象,身兼数职的韩旭很忙,经常分身乏术。

    91720编辑于 2023-04-26
领券