我正在R中模拟索赔频率(泊松分布),我正在使用gbm和xgboost包,但xgboost似乎没有偏移量参数来考虑曝光?
在gbm中,人们将按如下方式考虑曝光量:
gbm.fit(x = train,y = target, n.trees = 100,distribution = "poisson", offset = log(exposure))如何使用` `xgboost实现相同的功能?
PS:我不能使用曝光量作为预测器,因为每次观察到索赔时都会创建一个新的obs。
发布于 2016-09-13 22:59:20
创建xgboost矩阵后,可以使用setinfo和base_margin属性设置偏移量,例如:
setinfo(xgtrain, "base_margin", log(d$exposure))您可以从我在这里提出的类似问题中看到完整的示例:XGBoost - Poisson distribution with varying exposure / offset
发布于 2016-09-02 12:18:21
通过暴露来归一化你的计数,并使用暴露作为重量。有关详细信息,请参阅this answer。
https://stackoverflow.com/questions/34896004
复制相似问题