我已经训练了一个gbdt模型来预测CTR,最初我使用了40个特征,然后我添加了一些特征,但结果(Auc)比原来的要低。1.这是怎么发生的? 2.如何确定哪个特征对模型是好的?
发布于 2015-03-11 20:58:37
如果添加更多功能会降低性能,这很可能是由于过度拟合造成的。您的模型学习参数需要调整,以避免过于复杂(过度拟合)的模型。
在随机森林的情况下,树深度就是这样的一个参数。不应该允许树长得太深,否则它们可能会过度生长(这可能发生在随机的森林中,即使有很多树)。
发布于 2015-03-12 00:19:20
我同意添加更多特征产生更差结果的最有可能的原因是过度拟合,主要解决方案是特征选择。
现在,有不同的技术来验证和测量这种直觉。最好的工具之一是为给定训练和验证子集的模型生成学习曲线。
在sklearn库( this )的Python教程中可以看到一个很好的例子。此外,我强烈建议你看看Coursera中Andrew Ng的机器学习课程中的lecture about Learning Curves。
https://stackoverflow.com/questions/28983237
复制相似问题