文章/答案/技术大牛

发布

社区首页 >问答首页 >基于大型语料库的Word2Vec文本分类

问基于大型语料库的Word2Vec文本分类
EN

Data Science用户

提问于 2020-07-15 14:25:43

回答 1查看 460关注 0票数 1

我正在做一个小项目，我想使用word2vec技术作为文本表示方法。我需要对专利进行分类，但我只标注了其中的几个，为了提高我的ML模型的性能，我想使用大量的专利来增加我的模型的语料库/词汇量。问题是，一旦我训练了我的单词嵌入功能，如何使用这个更大的语料库与我的训练数据-我的标签数据？

我的数据集由2000项专利组成，这些专利都贴上了标签。

用于训练我的单词嵌入语料库的专利有300万项(我2000年的一些标签专利已经包含在这个更大的语料库中)，这是我用Gensim训练的。

你对怎么做有什么建议吗？

先谢谢你。

抢夺

text-classification

corpus

machine-learning

nlp

word2vec

回答 1

Data Science用户

回答已采纳

发布于 2020-07-15 17:02:09

使用大量的非标签数据来完善基于BERT的模型。你可以在没有监督的情况下训练伯特。然后，使用bert获取标签数据输入文本的嵌入，并训练分类器。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/77761

复制

相似问题

问基于大型语料库的Word2Vec文本分类
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于大型语料库的Word2Vec文本分类EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于大型语料库的Word2Vec文本分类
EN