我有一个2,600行和26列的训练数据集。
我使用数据训练了一个XGBoost (1.3.1)分类模型,并使用大约800行的测试集对其进行了评估。
在实验中,我发现尽管模型在重新运行时有稳定的结果,但是如果我从数据集中删除一行(随机选择),那么单个行的预测概率会发生高达15%的变化。
我不明白为什么删除2600行中的1行会导致模型发生如此大的变化!
参数:
{'learning_rate': 0.05, \
'n_estimators': 66, \
'max_depth': 6, \
'subsample': 1, \
'min_child_weight': 1, \
'colsample_bytree': 1, \
'gamma': 0.5, \
'reg_alpha': 0.001, \
'nthread': 1, \
'seed': 11}发布于 2022-04-13 09:00:37
基于树的模型是非常不稳定的,因此,当只改变一个点时,预期会看到完全不同的树的几何形状,但是如果数据集是平衡的,那么预测性能就不应该有那么大的不同。
我建议运行一个正确的验证模式来查看模型性能的不确定性,而不是只看一个简单的列车测试拆分。
https://datascience.stackexchange.com/questions/109963
复制相似问题