首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >BERT模型的训练和使用BERT嵌入

BERT模型的训练和使用BERT嵌入
EN

Stack Overflow用户
提问于 2020-08-18 21:12:55
回答 2查看 1.6K关注 0票数 2

我一直在阅读BERT,并使用BERT嵌入进行分类任务。我读过很多文章,但我对它的理解仍然不是100% (我自学了NLP,所以我对资源的访问可能会受到一些限制)。首先,我将描述我的任务。

我计划使用BERT嵌入进行分类,因为它是如何封装含义和语言的。不幸的是,在我的语言(爱尔兰语)中没有伯特模型,所以我研究了自己的训练。我知道伯特基本上是变压器编码器的“延伸”。

以下是我的问题:

  • 我认为这是相当明显的,但是要检查的是,预先训练过的BERT嵌入不能应用于不同的语言(标准的嵌入模型是在wiki数据集上为英语训练的,我认为由于明显的原因,它不可能在其他语言上使用)?
  • 我的数据集包含了关于850 k句子的爱尔兰语(约2200万单词)。这足以培养出一个像样的伯特模型吗?我可以找到更多的数据,但要获得更多的爱尔兰语将是非常困难的。
  • 有人会建议在PyTorch或TensorFlow中做一款“从头开始”的伯特模型,还是像Fairseq和OpenNMT这样的模型可以使用呢?

对于这样一个不连贯的问题,我表示歉意,但总之,我到处都在尝试完全理解BERT,特别是培训过程,并且只是为了嵌入而对其进行调优。如果我搞错了,或者只是有建议,我会感谢你的反馈。

EN

回答 2

Stack Overflow用户

发布于 2021-10-18 11:48:42

我和你一样,是NLP的自学老师。既然你还没有开始(你会有如此安静的旅程,不是吗?),我建议你在tensorflow库中查看这个proyect,因为它来自Google,您可以更好地访问它的所有功能(只是我的观点):

首先,您需要一个line文件来标记:它是一个文件(txt),它包含固定大小的字符串,每行一个。BERT大约使用30.000,所以也考虑一下您的数字(更高的数字并不意味着更高的精度)。本标记化教程将帮助您

如果您对转换器的工作方式有很深的好奇心,那就另外看看这个

关于从头开始的培训--一个新的BERT模型,看看这个问题:你能用特定于任务的体系结构从零开始训练BERT模型吗?

你需要一台非常强大的计算机才能做到这一点。否则,您将有很多内存问题。另一方面,Tensorflow允许您训练它的hub模型(包括预处理和编码器),所以我认为没有必要重新发明轮子。为此,请使用tensorflow_hub (同时安装tensorflow_text,因为我认为您会有依赖错误)。我让您在这里BERT各预处理模型和编码器模型的tfdev集线器链接 (如果您下载一个,在资产文件夹中,您会发现的声音文件)。

850 k个句子和2200万个单词可能比原始BERT中使用的数据少。如果你的目标只是好奇,那么它就足够大了。

希望我帮了你!祝好运

PD:我也开始使用BERT了。你的问题是从去年8月开始的,所以我认为你已经取得了一些进展。我会感激并感兴趣地读它!

票数 0
EN

Stack Overflow用户

发布于 2021-12-02 12:28:05

虽然在题目中没有提到,但你的问题似乎是你如何才能获得爱尔兰人的伯特模型。现在有三种单一语言的爱尔兰BERT模式:

  • 自2020年5月以来,有关于爱尔兰维基百科的wikibert-ga培训(约70万句话)。
  • 自2020年8月以来,出现了BERTreach。示范卡说,它接受了4千7百万记号(210万句)的训练,包括使用未加注释的原始部分的爱尔兰人的PARSEME语言多词表达语料库。此外,他们使用语料库爬虫和一个小语料库,大概是来自https://wortschatz.uni-leipzig.de/en/download/Irish (模型卡中的链接不起作用)。
  • 自2021年7月以来,gaBERT接受了790万句句子的培训,其中包括无法免费获得的语料库。(数据源之间有一些重叠。只有算上明显不同的来源,至少有470万个句子。

此外,多语言LaBSE模型可能是您感兴趣的,因为它是专门训练为句子的意义编码。

免责声明:我是gaBERT论文的共同作者.

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63476702

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档