我正在解决一个NLP问题,将文本分为四类。1.体育2.娱乐3.占星术4.未知
我已经为体育、娱乐、占星术创建了一个训练数据集。但是如何为“未知”类别创建训练数据集,或者如何将不属于前三个类别的文本分类到最后一个类别,即“未知类别”?
发布于 2018-09-05 18:27:22
我会选择不属于前3类中任何一类的文档/文本。
这里有一个重要的问题,与每个其他类中的文档数量相比,文档的数量可能会非常高,所以您可能想要做的是对该Unknown类进行子采样(例如,随机选择一些文档)。
https://stackoverflow.com/questions/52150181
复制相似问题