首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >您能帮助我理解GLM模型中的weights_column参数吗?例如在H2o中?

您能帮助我理解GLM模型中的weights_column参数吗?例如在H2o中?
EN

Stack Overflow用户
提问于 2018-06-12 04:54:27
回答 1查看 730关注 0票数 1

我想介绍一些偏见。我有n-risk factors (预测器),但根据我收集到的证据!我认为其中一个Risk factors比其他的更相关。有一个weights_column参数(请参阅描述),但我不清楚如何使用它,以及它是否可以用于我的目的。

文件说明(3.20.0.1版):

此选项指定在确定权重时使用的培训框架中的列。权重是每行观察权重,不增加数据帧的大小。这通常是重复一行的次数,但也支持非整数值。在训练过程中,由于损失函数较大,体重越高的排越重要.

我不知道它是否适合我的目的。我有以下问题/评论,这将有助于我理解如何使用它,但也有助于改进下一个版本的文档:

  1. “权值是每一行的观察”,我期望按列(我们在特定列中定义一个权重)。在我看来,这个算法似乎是在添加虚拟行,但是它说这并不是增加行数。i)添加这类虚拟行的逻辑是什么?(是另一行的副本还是被修改的行,如果是的话,是如何修改的?)
  2. “由于更大的损失函数前置因素”:ii)在这种情况下它意味着什么?( ii)它是否只适用于loss-function 度量?(四)预因素是什么?
  3. v)我们可以指定多个列吗?参数的名称是复数的,但是示例和文档似乎仅指一列。

然后下一段说:“例如,2的权重与复制一行相同”,但用户只能指定列名。vi)我们可以指定权重因子数吗?

文件中提供的例子没有根据问题性质澄清使用这类参数的目的,也没有对使用这类参数如何影响结果进行比较。在这种情况下,用列weight**?**设置这个参数的基本原理是什么?

例如,在有和不设置weights_column的情况下运行脚本,我们得到:

代码语言:javascript
复制
[1] "AUC with weights_column"
[1] 0.9645522
[1] "AUC without weights_column"
[1] 0.9803922

这个例子展示了如何使用这个参数,但是它不适合看到使用它的好处。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-06-15 11:14:03

我认为,这里可能会有一些混淆的普遍使用的权重。

这里的加权是在行的基础上应用的,所以不能用来增加一个变量的权重.一个示例用例可能是如果我们有时变数据,我们认为最近的数据更像是未来的样本,而不是以前的数据。在这个用例中,我们可以增加最近的样本的重量,而降低最近的样本的重量。

这里最重要的一点是,它是对一个样本(及其所有特性)的加权,而不是对所有样本的单个特性的加权。

对于您的用例,如果您有足够的培训数据,可能会有一个合适的算法(GBM/RF)使用您认为重要的特性。如果没有,那么这可能表明您所识别的特性不像您最初所想的那么重要,或者与另一个特性高度相关。

如果您仍然想增加一个特性的权重,那么要解决这个问题的一种方法是将多个虚拟变量添加到同一功能的数据框架中。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50809461

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档