我一直在阅读BERT,并使用BERT嵌入进行分类任务。我读过很多文章,但我对它的理解仍然不是100% (我自学了NLP,所以我对资源的访问可能会受到一些限制)。首先,我将描述我的任务。
我计划使用BERT嵌入进行分类,因为它是如何封装含义和语言的。不幸的是,在我的语言(爱尔兰语)中没有伯特模型,所以我研究了自己的训练。我知道伯特基本上是变压器编码器的“延伸”。
以下是我的问题:
对于这样一个不连贯的问题,我表示歉意,但总之,我到处都在尝试完全理解BERT,特别是培训过程,并且只是为了嵌入而对其进行调优。如果我搞错了,或者只是有建议,我会感谢你的反馈。
发布于 2021-10-18 11:48:42
我和你一样,是NLP的自学老师。既然你还没有开始(你会有如此安静的旅程,不是吗?),我建议你在tensorflow库中查看这个proyect,因为它来自Google,您可以更好地访问它的所有功能(只是我的观点):
首先,您需要一个line文件来标记:它是一个文件(txt),它包含固定大小的字符串,每行一个。BERT大约使用30.000,所以也考虑一下您的数字(更高的数字并不意味着更高的精度)。本标记化教程将帮助您
如果您对转换器的工作方式有很深的好奇心,那就另外看看这个
关于从头开始的培训--一个新的BERT模型,看看这个问题:你能用特定于任务的体系结构从零开始训练BERT模型吗?
你需要一台非常强大的计算机才能做到这一点。否则,您将有很多内存问题。另一方面,Tensorflow允许您训练它的hub模型(包括预处理和编码器),所以我认为没有必要重新发明轮子。为此,请使用tensorflow_hub (同时安装tensorflow_text,因为我认为您会有依赖错误)。我让您在这里BERT各预处理模型和编码器模型的tfdev集线器链接 (如果您下载一个,在资产文件夹中,您会发现的声音文件)。
850 k个句子和2200万个单词可能比原始BERT中使用的数据少。如果你的目标只是好奇,那么它就足够大了。
希望我帮了你!祝好运
PD:我也开始使用BERT了。你的问题是从去年8月开始的,所以我认为你已经取得了一些进展。我会感激并感兴趣地读它!
发布于 2021-12-02 12:28:05
虽然在题目中没有提到,但你的问题似乎是你如何才能获得爱尔兰人的伯特模型。现在有三种单一语言的爱尔兰BERT模式:
此外,多语言LaBSE模型可能是您感兴趣的,因为它是专门训练为句子的意义编码。
免责声明:我是gaBERT论文的共同作者.
https://stackoverflow.com/questions/63476702
复制相似问题