我正在做一个小项目,我想使用word2vec技术作为文本表示方法。我需要对专利进行分类,但我只标注了其中的几个,为了提高我的ML模型的性能,我想使用大量的专利来增加我的模型的语料库/词汇量。问题是,一旦我训练了我的单词嵌入功能,如何使用这个更大的语料库与我的训练数据-我的标签数据?
我的数据集由2000项专利组成,这些专利都贴上了标签。
用于训练我的单词嵌入语料库的专利有300万项(我2000年的一些标签专利已经包含在这个更大的语料库中),这是我用Gensim训练的。
你对怎么做有什么建议吗?
先谢谢你。
抢夺
发布于 2020-07-15 17:02:09
使用大量的非标签数据来完善基于BERT的模型。你可以在没有监督的情况下训练伯特。然后,使用bert获取标签数据输入文本的嵌入,并训练分类器。
https://datascience.stackexchange.com/questions/77761
复制相似问题