我计划对电子邮件进行分类。我正在使用tfidf向量器和逻辑回归算法来做这件事。我接受了非常小的训练和测试集。我的训练集由150封电子邮件组成(3个类,50封电子邮件/班),测试集由6封电子邮件组成。现在我的分类器正确地预测了6个中的4个。现在我的疑问是,我可以告诉分类器这个文档属于类X而不是类Y吗?如果是,这个过程叫什么?
谢谢。
发布于 2018-06-15 08:40:41
如果你有3个类别和标记的数据,并且已经训练了模型,那么你已经“告诉了分类器”你可以(即训练)的一切。
如果你说你想告诉分类器关于2/6失败的测试用例,那么你不可能使用Logistic回归(也许是其他的反馈模型?)。您需要的是更多地训练模型,或者添加更多的测试用例。您可以将这两个失败的案例添加到训练中,并尝试不同的测试数据。
你可能有一个不适合的模型,你可以试着调优,但通过我用与你相似的文本所做的实验,很难在有限的数据和tf-idf中获得真正高的精度,因为“模型”只是词频。
https://stackoverflow.com/questions/47905139
复制相似问题