我有一个关于XGboost的一般性问题,特别是关于小数据集的n_rounds参数。
通常情况下,我通过交叉验证来调整n_rounds参数,但是如果你的观察量太少,无法进行适当的简历,该怎么办?例如,如果我的训练数据中有30个变量和4000个观察值,那么如何才能为n_round找到一个很好的值,这个值还没有超过/不适合训练数据呢?
是否有任何参数优化的“最佳实践”(也包括max_depth等)有小数据集?
发布于 2017-01-22 21:26:12
您可以使用网格搜索或xgb.cv来找到最佳的迭代。运行xgb.cv,例如500个树并添加早期停止条件。然后,您可以使用xgb.train的最佳迭代。看看这些链接。
https://stats.stackexchange.com/questions/171043/how-to-tune-hyperparameters-of-xgboost-trees
https://datascience.stackexchange.com/questions/16163
复制相似问题