我正在为一个审查站点实现一个朴素的Byes分类器,以便识别垃圾评论,并有几个问题。
我知道这些不会是愚蠢的证据,这只是关于手动检查的潜在评论,但我只是不清楚什么是最好的设置。
发布于 2017-04-18 23:52:14
只要您使用任何足够复杂的算法,您就应该能够用任何一种方法区分“好”和“坏”数据。如果您使用一个模型来完成这一切,那么您只需要增加模型的大小,这样综合模型就可以构建(在最坏的情况下)独立的两种决策路径,即“垃圾邮件”和“欺骗”。
如果您正在对此进行三种不同的分类:“好”、“垃圾邮件”和“欺骗性”,那么无论哪种方式,您都做得很好。不过,请注意,您的模型尺寸较小,单独的培训,您的培训时间将更短,因为将有更少的不准确的猜测在路上。
另一方面,在以后的实际使用中使用两个模型可能会减慢检测速度,因为通过第一个模型的每个输出都必须通过第二个模型。对于大多数应用程序来说,这一次并不是一个重要的因素。
最重要的是,我首先为每个类建立一个单独的模型:实现和培训方面的任何问题都会更快地找到,更容易分离。
https://stackoverflow.com/questions/43473872
复制相似问题