首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于大型语料库的Word2Vec文本分类

基于大型语料库的Word2Vec文本分类
EN

Data Science用户
提问于 2020-07-15 14:25:43
回答 1查看 460关注 0票数 1

我正在做一个小项目,我想使用word2vec技术作为文本表示方法。我需要对专利进行分类,但我只标注了其中的几个,为了提高我的ML模型的性能,我想使用大量的专利来增加我的模型的语料库/词汇量。问题是,一旦我训练了我的单词嵌入功能,如何使用这个更大的语料库与我的训练数据-我的标签数据?

我的数据集由2000项专利组成,这些专利都贴上了标签。

用于训练我的单词嵌入语料库的专利有300万项(我2000年的一些标签专利已经包含在这个更大的语料库中),这是我用Gensim训练的。

你对怎么做有什么建议吗?

先谢谢你。

抢夺

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-07-15 17:02:09

使用大量的非标签数据来完善基于BERT的模型。你可以在没有监督的情况下训练伯特。然后,使用bert获取标签数据输入文本的嵌入,并训练分类器。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/77761

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档