首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏NewBeeNLP

    Dont stop pretraining,继续预训练!

    论文全称及链接:《Don't Stop Pretraining: Adapt Language Models to Domains and Tasks》 项目地址:https://github.com/ allenai/dont-stop-pretraining 具体的,作者选择了四个领域,包括生物医学(BIOMED)、计算机科学(CS)、新闻(NEWS)和评论(REVIEWS)。

    2K20发布于 2021-10-20
  • 来自专栏软件研发

    深度学习算法中的预训练(Pretraining

    为了解决这个问题,预训练(Pretraining)技术应运而生,它通过在无标签数据上进行初始训练,然后在有标签数据上进行微调,从而加速和改善深度学习模型的训练。

    1.4K30编辑于 2023-09-23
  • 来自专栏数据分析与挖掘

    GLM: General Language Model Pretraining with Autoregressive Blank Infilling

    ChatGLM的基座是GLM: General Language Model Pretraining with Autoregressive Blank Infilling论文中提出的模型,接下来我们来看看 论文名称:GLM: General Language Model Pretraining with Autoregressive Blank Infilling论文地址:https://aclanthology.org

    2.8K30编辑于 2023-04-02
  • 来自专栏朴素人工智能

    【ICML 2020】REALM: Retrieval-Augmented Language Model PreTraining

    去年可以说是语言模型快速发展的一年,BERT、XLNET、Albert等等模型不断刷新各个NLP榜单。在NLP榜单中比较引人注目的应该属于阅读理解型的任务,例如SQuAD等等。以SQuAD为例,模型需要阅读一段给定的文本,然后回答几个问题,问题如果存在答案,答案一定可以在文章中找到。所以说虽然叫阅读理解,但其实和序列标注有点相像,是在给定序列中标出答案段。而这篇论文针对的问题叫开放领域问答(Open-domain QA),对于一个问题Q,模型需要从包含大量文档的知识库中找到答案,而不是像SQuAD数据集一样从一篇文章中寻找。

    1.1K30发布于 2020-04-21
  • 来自专栏深度学习思考者

    Vehicle Logo Recognition System Based on Convolutional Neural Networks With a Pretraining Strategy

    Introduction 引言中指出了paper的两个点: ①a PCA-based pretraining strategy(PCA预处理) ②a coarse segmentation approach

    1K80发布于 2018-01-02
  • 来自专栏自然语言处理

    【LLM系列之GLM】GLM: General Language Model Pretraining with Autoregressive Blank Infilling

    论文题目:《GLM: General Language Model Pretraining with Autoregressive Blank Infilling》 论文链接:https://arxiv.org

    2.6K50编辑于 2023-08-25
  • 来自专栏我的充电站

    文献阅读:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

    文献阅读:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks 1.

    1.5K60编辑于 2022-11-02
  • 来自专栏小七的各种胡思乱想

    Continue Pretraining

    paper: Don't stop Pretraining: Adapt Language Models to Domains and TasksGitHub: https://github.com/allenai /dont-stop-pretraining论文针对预训练语料和领域分布,以及任务分布之间的差异,提出了DAPT领域适应预训练(domain-adaptive pretraining)和TAPT任务适应预训练 (task-adaptive pretraining)两种继续预训练方案,并在医学论文,计算机论文,新闻和商品评价4个领域上进行了测试。

    1.8K41编辑于 2022-09-20
  • 来自专栏小七的各种胡思乱想

    Continue Pretraining

    paper: Don't stop Pretraining: Adapt Language Models to Domains and Tasks GitHub: https://github.com/ allenai/dont-stop-pretraining 论文针对预训练语料和领域分布,以及任务分布之间的差异,提出了DAPT领域适应预训练(domain-adaptive pretraining)和 TAPT任务适应预训练(task-adaptive pretraining)两种继续预训练方案,并在医学论文,计算机论文,新闻和商品评价4个领域上进行了测试。

    66810编辑于 2022-09-29
  • 来自专栏IT从业者张某某

    深入探索像ChatGPT这样的大语言模型-01-Base Model-Pretraining阶段

    GPT等大模型是如何训练的-01-Base Model-Pretraining阶段 Base Model -Pretraining阶段 Step 1: download and preprocess the

    40300编辑于 2025-03-15
  • 来自专栏NewBeeNLP

    BERT微调效果不佳?不如试试这种大规模预训练模型新范式

    例如LXMERT,ViT等 Analyzer:对模型底层设计/原理/效果/可解释性等方面的探究 纵观目前为止的大多数预训练模型,一般都是沿用『Pretraining + Finetuning』两个阶段的模式 重点研究了两块:domain-adaptive pretraining和task-adaptive pretraining,实验在四个领域(生物、CS、新闻、评论)的八个分类任务上发现均能提高性能。 源码:https://github.com/allenai/dont-stop-pretraining 下面来具体看看 Domain-Adaptive PreTraining Domain-Adaptive PreTraining(DAPT)是指在第一阶段通用预训练模型的基础上,利用领域内未标注文本继续训练。 Task-Adaptive PreTraining Task-Adaptive PreTraining(TAPT)是指在第一阶段通用预训练模型的基础上,利用任务相关未标注文本继续训练。

    1.9K40发布于 2020-12-08
  • 来自专栏自然语言处理(NLP)论文速递

    MetaAI & 华盛顿 | 提出跨文档的语言建模,7B模型性能提高5%,RC任务提高15%

    为此,本文作者提出一种新的方法:上下文预训练(IN-CONTEXT PRETRAINING),其中语言模型在一系列相关文档上进行预训练,从而引导模型进行跨文档边界阅读和推理。 In-Context Pretraining 通过组合几个语义相关的文档来重新排序预训练数据,从而创建一个连贯的输入上下文,从而使LM暴露于长相关的上下文,并提供超越文档边界的预训练信号。  由于In-Context Pretraining只改变文档顺序,而不影响LM预训练的所有其他方面,因此它可以很容易地集成到大型语言模型(LLMs)的现有预训练管道中。   In-Context Pretraining  预训练的标准做法是通过连接随机文档直到达到最大上下文长度来形成输入上下文,然后使用该上下文来训练 LM。 实验结果  为了评估上下文预训练(In-Context Pretraining)的有效性,作者在 CommonCrawl 数据集的3000 亿个Token上预训练了 0.3 到 70 亿个参数的语言模型

    49550编辑于 2023-10-24
  • 来自专栏粽子的深度学习笔记

    【Paper Reading·3Det 】On the Importance of Pretrained Knowledge Distillation for 3D Object Detection

    Predistill pipline分为三部分: expert learning:先训练在一个3D检测任务,使用点云作为输入; pretraining:multi-view image作为输入,文章提出了一个 Refinements **Selective Focus in Pretraining: ** 噪声主要来自于不准确的depth. 在BEV空间,点云数据提供更 attentive 的特征表达。 本文重点在pretraining阶段,为了对齐特征表示,从老师那里学习知识,用了选区蒸馏,channel-wise等。

    49810编辑于 2022-10-28
  • 来自专栏机器之心

    教程 | 深度学习:自动编码器基础和类型

    def pretraining_functions(self, train_set_x, batch_size): ''' Generates a list of functions, 这个函数将根据 pretraining_epochs 在训练集上执行固定数量的 epoch。 ######################### # PRETRAINING THE MODEL # ######################### print('... getting the pretraining functions') pretraining_fns = sda.pretraining_functions(train_set_x=train_set_x c = [] for batch_index in range(n_train_batches): c.append(pretraining_fns

    957160发布于 2018-05-10
  • 来自专栏新智元

    谷歌最强NLP模型BERT官方代码来了!GitHub一天3000星

    create_pretraining_data.py脚本将连接 segments,直到达到最大序列长度,以最大限度地减少填充造成的计算浪费。 (可以将文件glob传递给run_pretraining.py,例如,tf_examples.tf_record *。) python create_pretraining_data.py \ --input_file=. 传递给run_pretraining.py的max_seq_lengthand max_predictions_per_seq参数必须与create_pretraining_data.py相同。 python run_pretraining.py \ --input_file=/tmp/tf_examples.tfrecord \ --output_dir=/tmp/pretraining_output

    1.5K30发布于 2018-12-11
  • 来自专栏量子位

    1美元训练BERT,教你如何薅谷歌TPU羊毛 | 附Colab代码

    /shards/shard_ 现在,对于每个部分,我们需要从BERT仓库调用create_pretraining_data.py脚本,需要使用xargs命令。 = "pretraining_data" #@param {type:"string"} # controls how many parallel processes xargs can create /shards/ | " "xargs -n 1 -P {} -I{} " "python3 bert/create_pretraining_data.py gsutil -m cp -r $MODEL_DIR $PRETRAINING_DIR gs://$BUCKET_NAME 在云TPU上训练模型 注意,之前步骤中的某些参数在此处不用改变。 = "pretraining_data" #@param {type:"string"} VOC_FNAME = "vocab.txt" #@param {type:"string"} # Input

    2K20发布于 2019-07-30
  • 来自专栏NLP/KG

    大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求

    Both hyperparameters used in pretraining and finetuning are provided below. Pretraining Hyperparameter Global Batch Size Learning rate Epochs Max length Weight decay LLaVA-v1.5- Base LLM Vision Encoder Pretrain Data Pretraining schedule Finetuning Data Finetuning schedule LLaVA-Bench-Conv Base LLM Vision Encoder Pretrain Data Pretraining schedule Finetuning Data Finetuning schedule Download Dataset The pretraining dataset used in this release is a subset of CC-3M dataset, filtered with a more

    3.2K20编辑于 2023-10-18
  • 来自专栏智能生信

    [JCIM | 论文简读] 低资源反应预测场景的自监督分子预训练策略

    作者 | 王宇哲 编辑 | 龙文韬 论文题目 Self-Supervised Molecular Pretraining Strategy for Low-Resource Reaction Prediction /doi/10.1021/acs.jcim.2c00588 github链接 https://github.com/hongliangduan/Self-supervised-molecular-pretraining-strategy-for-low-resource-reaction-prediction-scenarios

    27320编辑于 2022-12-29
  • 来自专栏数据分析与挖掘

    bert相关变体

    order predict)代替NSP(next sentence predict):因为两个句子之间可能是通过主题进行预测下一句的; xlnet:Generalized Autoregressive Pretraining RoBERTa: A Robustly Optimized BERT Pretraining Approach 移除NSP这个任务; 动态改变mask的策略; 其它实验的一些设置; ERNIE: Enhanced

    89920发布于 2021-02-25
  • 来自专栏机器学习、深度学习

    人群计数--Switching Convolutional Neural Network for Crowd Counting

    Ground Truth 我们采用和 文献【19】一样的方法生成密度真值图,使用 Gaussian geometry-adaptive kernels Switch-CNN 的训练包括三个步骤: pretraining Pretraining 就是对三个 CNN regressors R 1 through R 3 进行独立的训练, regress density maps,每个网络的训练都是在所有训练数据上进行的

    2.4K70发布于 2018-01-03
领券