我正在解决一个问题,二进制分类问题和这方面的培训规模是巨大的(2910亿)。由于使用tfidfvectorizer作为问句列,数据膨胀了。在这里,在这个问题上,我必须对问题进行分类。
我使用了Logistic回归,并保留了MultinomialNB,Randomforest和svm作为训练。然而,与其做这样的尝试和命中方法,是否有一个逻辑解释为什么一种分类算法必须比其他分类算法在这种情况下表现更好。
以前,我曾尝试过随机林和logistic回归来过滤垃圾邮件,并观察到与随机林相比,logistic回归的训练误差较小。我知道这可能是个过分合适的解决方案。但是我能肯定地说‘这’是你必须使用的分类算法吗?
注意:我还没有删除停止词,并做一些降维。
https://datascience.stackexchange.com/questions/57834
复制相似问题