我正在将xgboost模型(Scala)与我的事务数据集相匹配。在我的培训集中,我有大约两百万笔交易,这是一个高度不平衡的比率,正/负<0.001班。我现在在模型中有大约300个功能。
然后,我取一个输出模型并对每个特性进行计数。
然后,我从大多数树到最少树的特征进行分类。我得到了一些我不确定的结果。列表顶部的特性,大多数树和分叉基本上出现在每个xgboost树中多次。例如,在具有100轮colsample_bytree=1.0和max_depth=6的xgboost中,我会看到在100个树中出现了一个特性A,并且在大约400个分叉中出现了一个特性。特征B出现在98棵树和350个分裂等。基本上,我所有的树似乎都是基于相同的顶部特征,在不同的配置。
这是否意味着:
colsample_bytree或colsample_bylevel来迫使模型采用其他特性,这虽然有所帮助,但模型性能并没有显着地提高。还有其他建议吗?
发布于 2018-12-20 06:35:13
对你的问题:
https://datascience.stackexchange.com/questions/42880
复制相似问题