根据教程,我正在做一个检测垃圾邮件账户的项目。两个标签-“垃圾邮件”和“非垃圾邮件”被用来训练和测试。分类已经完成了,我要去评估了。
研究结果如下:
*Spam* precision: 0.962917933131
*Spam* recall: 0.6336
*Not spam* precision: 0.72697466468
*Not spam* recall: 0.9756我读过“精确和回忆”的维基,仍然很困惑,也不知道如何使用它来测量。
我的目的是减少普通帐户的数量,它被标记为“垃圾邮件”。一些“垃圾邮件”账户能否逃脱并不重要。所以我想知道上面的结果我应该集中精力去改进吗?谢谢。
发布于 2013-04-17 04:57:45
精度是被归类为正的结果的分数,它确实是正的。
回忆是所有被检测到的阳性结果的一部分。
我的目的是减少被贴上“垃圾邮件”标签的普通账户数目。
这意味着你想要最大限度地提高垃圾邮件的准确性,并召回非垃圾邮件。您链接到的wiki页面解释了您需要知道的所有信息--实际上,您的目的是将“假阳性”的数量降到最低(这两个特征中都包含了这些错误)。
建议的关键词:混淆矩阵。
https://stackoverflow.com/questions/16051721
复制相似问题