我是刚接触scikit的人,我正在学习下面的例子
http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html#exercise-3-cli-text-classification-utility
然而,我想知道,如果我想要分类的字符串A和B都被归入来自朴素贝叶斯的同一文档组,我是否能够找到哪个字符串更有可能被归入文档组?
例如,如果文档组是'computer graphics‘,我有一个字符串"Computers are cool",另一个字符串是"OpenGL和CUDA are cool",虽然它们都可能被归入该文档组,但第二个字符串在该文档组下的分类可能更强,因为它的tf-idf分数可能更高。在我对它们进行分类之后,有没有办法找出它们,这样我就可以找出哪个字符串更能代表这个类别?
发布于 2015-04-22 10:53:34
scikit中的许多分类器都有一个方法predict_proba,该方法返回给定测试数据落入任何可用输出类别的预测概率。(例如,Here就是用于高斯朴素贝叶斯的方法。)您可以使用它来计算模型对分类的置信度。
https://stackoverflow.com/questions/29786845
复制相似问题