问多个朴素贝叶斯分类器
EN

Stack Overflow用户

提问于 2017-04-18 13:39:22

回答 1查看 93关注 0票数 0

我正在为一个审查站点实现一个朴素的Byes分类器，以便识别垃圾评论，并有几个问题。

在我看来，有多种类型的垃圾邮件，例如直接营销垃圾与他们正在审查的事情无关，而不是一个欺骗性的评论。为了不同的目的实现多个分类器是明智的，这样一个能更好地检测垃圾邮件，而另一个则学习欺骗性的评论吗？
同样地，有多个类别的项目正在被审查，所以对于“欺骗性审查”分类器来说，是否最好只有一个分类器尝试从所有的评论中学习？还是每个类别都有一个分类器，以便能够学习这些类别中的细微差别？

我知道这些不会是愚蠢的证据，这只是关于手动检查的潜在评论，但我只是不清楚什么是最好的设置。

发布于 2017-04-18 23:52:14

只要您使用任何足够复杂的算法，您就应该能够用任何一种方法区分“好”和“坏”数据。如果您使用一个模型来完成这一切，那么您只需要增加模型的大小，这样综合模型就可以构建(在最坏的情况下)独立的两种决策路径，即“垃圾邮件”和“欺骗”。

如果您正在对此进行三种不同的分类：“好”、“垃圾邮件”和“欺骗性”，那么无论哪种方式，您都做得很好。不过，请注意，您的模型尺寸较小，单独的培训，您的培训时间将更短，因为将有更少的不准确的猜测在路上。

另一方面，在以后的实际使用中使用两个模型可能会减慢检测速度，因为通过第一个模型的每个输出都必须通过第二个模型。对于大多数应用程序来说，这一次并不是一个重要的因素。

最重要的是，我首先为每个类建立一个单独的模型:实现和培训方面的任何问题都会更快地找到，更容易分离。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43473872

复制

相似问题

问多个朴素贝叶斯分类器EN