首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何获得垃圾邮件的概率而不是分类

如何获得垃圾邮件的概率而不是分类
EN

Stack Overflow用户
提问于 2012-11-26 13:43:33
回答 3查看 259关注 0票数 0

我正在构建一个工具来计算一个文本评论的概率是假的(垃圾邮件)还是真实的。

我有一个带注释的评论数据集,标记为垃圾邮件或非垃圾邮件。我已经使用svm构建了一个分类器,但这只能将输入文档分类为垃圾文档或非垃圾文档。然而,我想要一个工具,它会给我一个介于0和1之间的数字,代表该文档是垃圾邮件的概率。有人能给我指个方向吗?

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2012-11-26 18:43:13

如果你想要一个连续值的分数(而不是一个显式的概率),你可以只使用SVM到超平面的距离。这是一个标准的置信度度量,您可以看到该点在多大程度上“融入”了类。

如果你想实际使用分类作为更广泛的概率模型的一部分,其中你需要一些真正的概率解释,你可以使用一种将SVM分数转换为概率的方法,但这些都是某种程度上的改进,没有很好的理论基础。相反,我建议你看看logistic regression classifier,有时被称为最大熵,以获得一个强大的概率替代方案。这具有像SVM这样的判别模型的好处,但具有自然和固有的概率基础。

票数 1
EN

Stack Overflow用户

发布于 2012-11-26 13:48:38

与其编写自己的代码,为什么不插入akismet呢?垃圾邮件检测是贝叶斯方法,提供的数据越多,检测效果越好。

票数 0
EN

Stack Overflow用户

发布于 2012-11-26 18:20:17

你可以用支持向量机得到概率。看看libsvm (-b参数)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13559253

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档