首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何确定训练规模大的分类算法?

如何确定训练规模大的分类算法?
EN

Data Science用户
提问于 2019-08-20 05:20:10
回答 1查看 31关注 0票数 1

我正在解决一个问题,二进制分类问题和这方面的培训规模是巨大的(2910亿)。由于使用tfidfvectorizer作为问句列,数据膨胀了。在这里,在这个问题上,我必须对问题进行分类。

我使用了Logistic回归,并保留了MultinomialNB,Randomforest和svm作为训练。然而,与其做这样的尝试和命中方法,是否有一个逻辑解释为什么一种分类算法必须比其他分类算法在这种情况下表现更好。

以前,我曾尝试过随机林和logistic回归来过滤垃圾邮件,并观察到与随机林相比,logistic回归的训练误差较小。我知道这可能是个过分合适的解决方案。但是我能肯定地说‘这’是你必须使用的分类算法吗?

注意:我还没有删除停止词,并做一些降维。

EN

回答 1

Data Science用户

发布于 2019-08-20 09:01:52

我不认为有一个明确的标准来决定使用什么方法。据我所见,您有大量的数据,问题是“复杂的”(语言)。这是进行“深入”学习(如神经网络助推 )的理由。原因是两者都能很好地处理“非线性”。

我想到的另一件事是,当你使用logit时,你会遇到这样的问题:你有很多特征(单词),而且只有某一部分功能可能是相关的。因此,在这种情况下,您将尝试摆脱那些对做出好的预测没有帮助的特性。有了logit,拉索法 (l1的惩罚)将是一件很自然的事情,可以“缩小”功能。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/57834

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档