我有623项观察,其中包括一个连续因变量和13个自变量(连续、分类和序数),这是根据研究经验和文献综述确定的。我考虑做几个回归分析来估计因变量,并研究其上的预测因素(如果它们是正的、负的以及它们的大小)。提供的数据为期10年。由于最近的观测更为重要,我感兴趣的是使用加权观测。我如何处理这个问题并验证我的方法?
发布于 2017-01-25 23:26:23
因此,观察年被认为是一个对因变量有积极影响的预测变量。然而,年份本身对因变量本身没有任何影响;相反,是在同一时期内发生的其他因素导致了改进。
对于具有足够交互深度的树木来说,这听起来像是一个挑战,因为您已经发现,这一年与其他导致改进的因素相互作用。这里的普通最小二乘回归不能很好地捕捉到这种交互作用。
我建议建立以下回归模型:
然而,在应用程序中选择XGBoost的缺点是,对特定变量对目标变量的影响的解释并不明显。您需要部分依赖图来观察目标变量随定制输入变量的变化情况。如果可解释性是非常重要的,人们可以选择一个单一的树回归模型,如rpart。
发布于 2015-12-01 02:41:58
将日期转换为整数时间戳将使最近的观察结果具有更高的权重。
当你写:
由于最近的观测更为重要,我感兴趣的是使用加权观测。
您的意思是您已经知道日期将是您的分析中的一个预测因素,还是您想要人为地将此变量作为回归的预测因素?
如果是前者,那么上面的整数转换就可以做到这一点。如果是后者,则需要将日期与目标变量(例如乘法)组合起来。
发布于 2017-05-26 06:58:23
你能做的一件事就是计算时间间隔,即当前的时间观察时间。假设这是t,现在以c/t或c*exp(-t)的形式创建一个权重向量。可以使用caret::train > weights在插入符号中使用权重。
https://datascience.stackexchange.com/questions/9131
复制相似问题