我试图在一些数据上建立一个二进制预测器,它有一个带有文本的列,还有一些带有数值的列。我的第一个解决方案是在文本上使用word2vec提取30个特性,并将它们与随机森林中的其他值一起使用。它产生了良好的效果。我感兴趣的是改进文本到特征模型。
然后,我想改进BERT的特征提取算法。我成功地实现了一个经过预先训练的word2vec特征提取模型,并对其进行了一些改进。
现在我想知道,我如何微调我的数据上的伯特模型-改进特征提取模型-得到更好的文本到特征,我的随机森林算法。我知道如何微调二进制预测器(BertForSequenceClassification)的伯特,但不知道如何微调它,以建立一个更好的伯特文本到特征提取模型。我可以以某种方式使用BertForSequenceClassification中的层吗?我花了两天时间试图找到一个解决方案,但到目前为止还没有.
你好,彼得
发布于 2019-09-27 21:07:59
发布于 2019-10-01 14:32:08
是的,你可以微调伯特,然后提取特征。我已经做到了,但它并没有产生很好的改善。通过微调并提取文本特性,文本功能会稍微适应您的自定义培训数据。它仍然可以用两种方式来完成。使用微调,然后提取特征,或者您可以继续从伯特的检查点进行预培训(将MLM应用于您的自定义数据),然后再进行特征提取。
https://stackoverflow.com/questions/58061775
复制相似问题