首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >多类文本分类,每节课有一个训练示例

多类文本分类,每节课有一个训练示例
EN

Stack Overflow用户
提问于 2021-04-07 08:38:31
回答 1查看 141关注 0票数 0

我试图解决多类、单标签文档分类问题,将单个类分配给文档。文档是特定领域的技术文档,附带技术术语:

classes.

  • Documents

  • 列车:我有19个类,每个类只有一个文档。

  • 目标:我有77个没有标签的文档,我想要分类到19个已知的有60-3000个标记,在pre-processing.
  • My完整语料库(19+77 document )有65k个术语(uni/bi/tri)之后,共有4.5k个术语(火车和目标之间)

目前,我正在使用tf-以色列国防军矢量化文档,并将尺寸降至通用术语。然后在火车和目标之间做一个余弦相似度。

我想知道是否有更好的方法?我不能使用滑雪板分类器,因为一个单一的文件在每一节课训练。对可能的改进/方向有什么想法吗?特别是:

  • 在小语料库中使用word-embeddings/doc2vec是否有意义?
  • 从训练集中的术语生成合成训练数据是否有意义?
  • 还有其他想法吗?

提前感谢!

EN

回答 1

Stack Overflow用户

发布于 2021-04-07 19:21:12

很高兴看到,您已经考虑了通常的策略--生成合成数据、预先训练的单词嵌入--用于半自动文本分类场景。不幸的是,由于每个班只有一个训练示例,无论您的特征提取多么好,或者您的数据生成多么有效,您所训练的分类器几乎肯定不会泛化。您需要更多(真实的)标签数据。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66982422

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档