我想介绍一些偏见。我有n-risk factors (预测器),但根据我收集到的证据!我认为其中一个Risk factors比其他的更相关。有一个weights_column参数(请参阅描述),但我不清楚如何使用它,以及它是否可以用于我的目的。
文件说明(3.20.0.1版):
此选项指定在确定权重时使用的培训框架中的列。权重是每行观察权重,不增加数据帧的大小。这通常是重复一行的次数,但也支持非整数值。在训练过程中,由于损失函数较大,体重越高的排越重要.
我不知道它是否适合我的目的。我有以下问题/评论,这将有助于我理解如何使用它,但也有助于改进下一个版本的文档:
loss-function 度量?(四)预因素是什么?然后下一段说:“例如,2的权重与复制一行相同”,但用户只能指定列名。vi)我们可以指定权重因子数吗?
文件中提供的例子没有根据问题性质澄清使用这类参数的目的,也没有对使用这类参数如何影响结果进行比较。在这种情况下,用列weight**?**设置这个参数的基本原理是什么?
例如,在有和不设置weights_column的情况下运行脚本,我们得到:
[1] "AUC with weights_column"
[1] 0.9645522
[1] "AUC without weights_column"
[1] 0.9803922这个例子展示了如何使用这个参数,但是它不适合看到使用它的好处。
发布于 2018-06-15 11:14:03
我认为,这里可能会有一些混淆的普遍使用的权重。
这里的加权是在行的基础上应用的,所以不能用来增加一个变量的权重.一个示例用例可能是如果我们有时变数据,我们认为最近的数据更像是未来的样本,而不是以前的数据。在这个用例中,我们可以增加最近的样本的重量,而降低最近的样本的重量。
这里最重要的一点是,它是对一个样本(及其所有特性)的加权,而不是对所有样本的单个特性的加权。
对于您的用例,如果您有足够的培训数据,可能会有一个合适的算法(GBM/RF)使用您认为重要的特性。如果没有,那么这可能表明您所识别的特性不像您最初所想的那么重要,或者与另一个特性高度相关。
如果您仍然想增加一个特性的权重,那么要解决这个问题的一种方法是将多个虚拟变量添加到同一功能的数据框架中。
https://stackoverflow.com/questions/50809461
复制相似问题