进一步培训BERT (-base/-大型)模型在您自己的语料库。这个过程被称为域适配，正如本近期论文中所描述的那样。这将使BERT模型的学习参数适应您的特定领域(Bio/Medical text)。尽管如此，对于此设置，您将需要一个相当大的语料库来帮助BERT模型更好地更新其参数。
使用预先训练过的语言模型，即对大量特定于领域的文本进行预培训，无论是从零开始还是在香草BERT模型上进行微调。正如你可能知道的，谷歌发布的香草伯特模型已经在维基百科和BookCorpus文本上接受了培训。继香草BERT之后，研究人员尝试在最初的数据收集之外，在其他领域对BERT体系结构进行培训。您可以使用这些预先培训过的模型，这些模型对特定领域的语言有着深刻的理解。对于您的情况，有一些模型，如：BioBERT、BlueBERT和SciBERT。

抱着脸有可能吗？

我不确定huggingface开发人员是否开发了一种健壮的方法，用于在定制企业上对伯特模型进行预培训，因为他们声称他们的代码仍在进行中，但如果您对此步骤感兴趣，我建议使用谷歌研究公司的伯特代码，该代码是用Tensorflow编写的，并且完全健壮(由伯特的作者发布)。在他们的自述和Pre-training with BERT部分下，确切的过程已经声明。这将为您提供Tensorflow检查点，如果您想要使用Pytorch/Transformers，可以很容易地将其转换为Pytorch检查点。

票数 7

Stack Overflow用户

发布于 2022-05-03 07:59:36

这是完全可能的训练前和进一步的预训练伯特(或几乎任何其他模式，可在拥抱面库)。

关于令牌器--如果您正在一个小的定制语料库上进行预训练(因此使用经过训练的Bert检查点)，那么您必须使用用于训练bert的令牌器。否则，你只会混淆模型。

如果您的用例是文本生成(从最初的句子/句子的一部分)，那么我可以建议您检查gpt-2 (https://huggingface.co/gpt2)。我没有使用GPT-2，但通过一些基础研究，我认为你可以：

from transformers import GPT2Tokenizer, TFGPT2Model
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
model = TFGPT2Model.from_pretrained('gpt2')

遵循本教程：https://towardsdatascience.com/train-gpt-2-in-your-own-language-fc6ad4d60171关于如何训练gpt-2模型。

注:我不确定，例如，DeBERTa-V3是否可以像往常一样接受预培训。我已经检查了他们的github回购，似乎V3没有官方的预培训代码(https://github.com/microsoft/DeBERTa/issues/71)。然而，我认为，用拥抱的脸，我们实际上可以做到这一点。一旦我有时间，我将运行一个预训练脚本，并验证这一点。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61416197

复制

相似问题

问在小型定制语料库上预训练语言模型
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在小型定制语料库上预训练语言模型EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在小型定制语料库上预训练语言模型
EN