我试图解决多类、单标签文档分类问题,将单个类分配给文档。文档是特定领域的技术文档,附带技术术语:
classes.
。
目前,我正在使用tf-以色列国防军矢量化文档,并将尺寸降至通用术语。然后在火车和目标之间做一个余弦相似度。
我想知道是否有更好的方法?我不能使用滑雪板分类器,因为一个单一的文件在每一节课训练。对可能的改进/方向有什么想法吗?特别是:
提前感谢!
发布于 2021-04-07 19:21:12
很高兴看到,您已经考虑了通常的策略--生成合成数据、预先训练的单词嵌入--用于半自动文本分类场景。不幸的是,由于每个班只有一个训练示例,无论您的特征提取多么好,或者您的数据生成多么有效,您所训练的分类器几乎肯定不会泛化。您需要更多(真实的)标签数据。
https://stackoverflow.com/questions/66982422
复制相似问题