我们有很多特定于领域的数据(200M+数据点,每个文档有大约100到500字),我们希望有一个特定于域的LM。
我们采取了一些样本数据点(2M+) &精调罗伯塔基地(使用高频变压器),使用蒙版语言建模(MLM)任务。
到目前为止,
由于RoBERTa模型是针对特定领域的数据进行细化的,因此我们确实期望该模型的性能要好于对一般文本(wiki数据、书籍等)进行培训的预培训-RoBERTa。
我们确实执行了一些任务,如命名实体识别(NER)、文本分类和嵌入生成来执行余弦相似任务。我们在特定领域的RoBERTa和训练前的罗伯塔上做了这件事。
令人惊讶的是,这两种模型的结果是相同的(非常小的差异)。我们也尝试过Spacy模型,但结果是一样的。
困惑评分表明,精细化的基于MLM的RoBERTa损失最小.
任何解决这些问题的建议或任何有价值的联系都会很有帮助。
拥抱脸讨论页面:https://discuss.huggingface.co/t/fine-tuned-mlm-based-roberta-not-improving-performance/36913
发布于 2023-04-21 03:50:35
这是很好的,您有微调的RoBERTa在您的特定领域的数据,并看到一个最小的损失在困惑的分数。然而,有几个原因可以解释为什么微调的基于MLM的RoBERTa模型可能没有比经过预先训练的RoBERTa模型表现得更好:
如果没有关于您的数据和任务的更多信息,很难确切地说明为什么经过细化的模型没有更好的性能。然而,我上面列出的解释是一些常见的原因,为什么微调可能并不总是导致性能上的显著改善。
为了解决这些问题,以下是一些建议:
就其他资源而言,您可能会发现以下链接很有帮助:
发布于 2023-04-22 16:00:13
如果您有几乎相同的结果,这可能是由于数据本身。有很多多余的内容吗?
数据应该有一些冗余,但不太多,否则在权重之间存在不平衡,从而降低了学习质量。
我是根据我的经验提出这个想法的。如果您的数据在文档之间有很多相似之处,您应该将它们减少到一个严格的最低限度。例如,如果您有10,000篇具有几乎相同内容的文章,它将更改模型培训。
此外,从分类/预测的角度来看,冗余是没有意义的。因此,您的培训数据不仅应该是大量的,而且还应该是可变的,以便使词汇表(或任何模型架构)具有良好的权重平衡。
https://datascience.stackexchange.com/questions/121004
复制相似问题