问加速模型的拟合
EN

Data Science用户

提问于 2019-07-18 18:41:09

回答 2查看 292关注 0票数 1

有什么方法可以加快模型在大文件(超过200 mb)上的匹配？我试着把它们分成几块，或者用dask，但是效果不令人满意。我使用16 i7内存和i7 2.2GHz处理器4核。它仍然是购买云服务还是使用更好的计算机？我的紧身衣

clf = xgb.XGBClassifier(n_estimators=500,
                        n_jobs=4,
                        max_depth=9,
                        learning_rate=0.05,
                        subsample=0.7,
                        colsample_bytree=0.7,
                        missing=-999, 
                        gamma = 0.1)
# Number of variable > 400
# Number of rows > 200000

machine-learning

回答 2

Data Science用户

回答已采纳

发布于 2019-07-18 19:16:28

您可以尝试的一件事是使用“普通”Logit，因为它在计算上不太昂贵。使用拉索，弹性网，或岭可以产生良好的结果(通常类似于助推)显示这里。

这里是Logit/Lasso的最新代码示例。

如果你想坚持提高，你可以检查LightGBM，因为它的速度更快。就数据处理而言，XGBoost往往比较“繁重”。LightGBM (顾名思义)旨在解决这个问题，到目前为止我已经有了很好的经验。

这里是指向LightGBM文档的链接。

票数 2

Data Science用户

发布于 2019-07-22 17:33:11

您可以尝试以下两种技术，甚至是两者的结合

如果您对分类变量使用一种热编码，并且有多个级别的变量(即具有高基数的范畴变量)，您可以首先将罕见的级别合并在一起，然后编码或仅仅使用另一种方法来编码分类变量(例如目标编码)。
只使用一小部分观察(行)来识别最相关的变量(列)，然后仅在整个数据集上使用这些变量来重构模型。如果最终模型的质量不能令人满意，则需要包含更多的变量。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/55949

复制

相似问题

问加速模型的拟合
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问加速模型的拟合EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问加速模型的拟合
EN