首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用xgboost建立Tweedie回归模型

用xgboost建立Tweedie回归模型
EN

Stack Overflow用户
提问于 2018-07-25 18:06:08
回答 1查看 6.1K关注 0票数 3

我试图使用xgboost来建立一个tweedie模型,但是我得到了一条模糊的错误消息。

下面是一个可重复的例子:

编制数据:

代码语言:javascript
复制
library(xgboost)
library(dplyr)

set.seed(123)
xx <- rpois(5000, 0.02)
xx[xx>0] <- rgamma(sum(xx>0), 50)

yy <- matrix(rnorm(15000), 5000,3, dimnames = list(1:5000, c("a", "b", "c")))

train_test <- sample(c(0,1), 5000, replace = T)

在这里,重要的是:objective = 'reg:tweedie'eval_metric = "tweedie-nloglik"tweedie_variance_power = 1.2

代码语言:javascript
复制
dtrain <- xgb.DMatrix(
  data = yy %>% subset(train_test == 0),
  label = xx %>% subset(train_test == 0)
)

dtest <- xgb.DMatrix(
  data = yy %>% subset(train_test == 1),
  label = xx %>% subset(train_test == 1)
)

watchlist <- list(eval = dtest, train = dtrain)

param <- list(max.depth = 2,
              eta = 0.3,
              nthread = 1,
              silent = 1,
              objective = 'reg:tweedie',
              eval_metric = "tweedie-nloglik",
              tweedie_variance_power = 1.2)

最后,调用xgboost:

代码语言:javascript
复制
resBoost <- xgb.train(params = param, data=dtrain, nrounds = 20, watchlist=watchlist)

它提供了这条模糊的错误消息:

代码语言:javascript
复制
Error in xgb.iter.update(bst$handle, dtrain, iteration - 1, obj) :
  [17:59:18] amalgamation/../src/metric/elementwise_metric.cc:168: Check failed: param != nullptr tweedie-nloglik must be in formattweedie-nloglik@rho

Stack trace returned 10 entries:
[bt] (0) /usr/local/lib/R/site-library/xgboost/libs/xgboost.so(dmlc::StackTrace[abi:cxx11]()+0x1bc) [0x7f1f0ce742ac]
[bt] (1) /usr/local/lib/R/site-library/xgboost/libs/xgboost.so(dmlc::LogMessageFatal::~LogMessageFatal()+0x28) [0x7f1f0ce74e88]
[bt] (2) /usr/local/lib/R/site-library/xgboost/libs/xgboost.so(xgboost::metric::EvalTweedieNLogLik::EvalTweedieNLogLik(char const*)+0x1eb) [0x7f1f0cea00db]
[bt] (3) /usr/local/lib/R/site-library/xgboost/libs/xgboost.so(+0x68ef1) [0x7f1f0ce78ef1]
[bt] (4) /usr/local/lib/R/site-library/xgboost/libs/xgboost.so(xgboost::Metric::Create(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&)+0x263) [0x7f1f0ce7ede3]
[bt] (5) /usr/local/lib/R/site-library/xgboost/libs/xgboost.so(xgboost::LearnerImpl::Configure(std::vector<std::pair

这个问题似乎与参数eval_metric = "tweedie-nloglik"链接,因为如果我将eval_metric更改为logloss,它会传递:

代码语言:javascript
复制
param$eval_metric <- "logloss"
resBoost <- xgb.train(params = param, data=dtrain, nrounds = 20, watchlist=watchlist)
[1]     eval-logloss:0.634391   train-logloss:0.849734
[2]     eval-logloss:0.634391   train-logloss:0.849734
...

知道如何在我的上下文中最合适地使用eval_metric = "tweedie-nloglik"参数吗?谢谢

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-07-26 05:16:54

TL;博士:感谢Frans Rodenburg评论:use eval_metric="tweedie-nloglik@1.2

我在研究tweedie的实现(我甚至不知道tweedie是什么)和以下链接中的日志丢失级别

推特:

代码语言:javascript
复制
struct EvalTweedieNLogLik: public EvalEWiseBase<EvalTweedieNLogLik> {
  explicit EvalTweedieNLogLik(const char* param) {
    CHECK(param != nullptr)
        << "tweedie-nloglik must be in format tweedie-nloglik@rho";
    rho_ = atof(param);
    CHECK(rho_ < 2 && rho_ >= 1)
        << "tweedie variance power must be in interval [1, 2)";
    std::ostringstream os;
    os << "tweedie-nloglik@" << rho_;
    name_ = os.str();
  }
  const char *Name() const override {
    return name_.c_str();
  }
  inline bst_float EvalRow(bst_float y, bst_float p) const {
    bst_float a = y * std::exp((1 - rho_) * std::log(p)) / (1 - rho_);
    bst_float b = std::exp((2 - rho_) * std::log(p)) / (2 - rho_);
    return -a + b;
  }
 protected:
  std::string name_;
  bst_float rho_;
};

日志丢失:

代码语言:javascript
复制
struct EvalLogLoss : public EvalEWiseBase<EvalLogLoss> {
  const char *Name() const override {
    return "logloss";
  }
  inline bst_float EvalRow(bst_float y, bst_float py) const {
    const bst_float eps = 1e-16f;
    const bst_float pneg = 1.0f - py;
    if (py < eps) {
      return -y * std::log(eps) - (1.0f - y)  * std::log(1.0f - eps);
    } else if (pneg < eps) {
      return -y * std::log(1.0f - eps) - (1.0f - y)  * std::log(eps);
    } else {
      return -y * std::log(py) - (1.0f - y) * std::log(pneg);
    }
  }
};

看起来EvalTweedieNLogLik应该得到一个名为param的参数。你还会发现你得到了准确的线条:

代码语言:javascript
复制
CHECK(param != nullptr)
    << "tweedie-nloglik must be in format tweedie-nloglik@rho";

当我将它与EvalLogLoss进行比较时,关联的区别在于它不需要变量,这就是它工作的原因。

感谢@Frans的评论,我一直在搜索和阅读如何使用它的这里示例。

使用eval_metric="tweedie-nloglik@1.2

在第一次阅读xgboost文档中的这些行时,我也弄错了:

Tweedie nloglik:推特回归的负对数似然(在tweedie_variance_power参数的指定值处)

它可能只与python相关。

票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51525175

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档