首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >加速模型的拟合

加速模型的拟合
EN

Data Science用户
提问于 2019-07-18 18:41:09
回答 2查看 292关注 0票数 1

有什么方法可以加快模型在大文件(超过200 mb)上的匹配?我试着把它们分成几块,或者用dask,但是效果不令人满意。我使用16 i7内存和i7 2.2GHz处理器4核。它仍然是购买云服务还是使用更好的计算机?我的紧身衣

代码语言:javascript
复制
clf = xgb.XGBClassifier(n_estimators=500,
                        n_jobs=4,
                        max_depth=9,
                        learning_rate=0.05,
                        subsample=0.7,
                        colsample_bytree=0.7,
                        missing=-999, 
                        gamma = 0.1)
# Number of variable > 400
# Number of rows > 200000
EN

回答 2

Data Science用户

回答已采纳

发布于 2019-07-18 19:16:28

您可以尝试的一件事是使用“普通”Logit,因为它在计算上不太昂贵。使用拉索,弹性网,或岭可以产生良好的结果(通常类似于助推)显示这里

这里是Logit/Lasso的最新代码示例。

如果你想坚持提高,你可以检查LightGBM,因为它的速度更快。就数据处理而言,XGBoost往往比较“繁重”。LightGBM (顾名思义)旨在解决这个问题,到目前为止我已经有了很好的经验。

这里是指向LightGBM文档的链接。

票数 2
EN

Data Science用户

发布于 2019-07-22 17:33:11

您可以尝试以下两种技术,甚至是两者的结合

  1. 如果您对分类变量使用一种热编码,并且有多个级别的变量(即具有高基数的范畴变量),您可以首先将罕见的级别合并在一起,然后编码或仅仅使用另一种方法来编码分类变量(例如目标编码)。
  2. 只使用一小部分观察(行)来识别最相关的变量(列),然后仅在整个数据集上使用这些变量来重构模型。如果最终模型的质量不能令人满意,则需要包含更多的变量。
票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/55949

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档