文章/答案/技术大牛

发布

社区首页 >问答首页 >我如何衡量不同的观测提供了一个时间范围？

问我如何衡量不同的观测提供了一个时间范围？
EN

Data Science用户

提问于 2015-11-30 14:32:56

回答 4查看 215关注 0票数 4

我有623项观察，其中包括一个连续因变量和13个自变量(连续、分类和序数)，这是根据研究经验和文献综述确定的。我考虑做几个回归分析来估计因变量，并研究其上的预测因素(如果它们是正的、负的以及它们的大小)。提供的数据为期10年。由于最近的观测更为重要，我感兴趣的是使用加权观测。我如何处理这个问题并验证我的方法？

data-mining

dataset

回答 4

Data Science用户

发布于 2017-01-25 23:26:23

因此，观察年被认为是一个对因变量有积极影响的预测变量。然而，年份本身对因变量本身没有任何影响；相反，是在同一时期内发生的其他因素导致了改进。

对于具有足够交互深度的树木来说，这听起来像是一个挑战，因为您已经发现，这一年与其他导致改进的因素相互作用。这里的普通最小二乘回归不能很好地捕捉到这种交互作用。

我建议建立以下回归模型：

将date列转换为(CurrentYear - YearOfDateStamp)为NumOfYearsAway。我建议把它作为一个数字特性，而不是一个绝对的特征。这将允许基于树的模型在(6,7,10)中选择像NumOfYearsAway >= 5.5这样的裁剪，而不是NumOfYearsAway。当评分数据集中出现NumOfYearsAway =0时，这也可能会更有帮助，因为您可能没有当前年份数据集的培训数据。
拟合一个基于树的模型，我会选择XGBoost，用通常的CV来调优超参数，比如交互深度。

然而，在应用程序中选择XGBoost的缺点是，对特定变量对目标变量的影响的解释并不明显。您需要部分依赖图来观察目标变量随定制输入变量的变化情况。如果可解释性是非常重要的，人们可以选择一个单一的树回归模型，如rpart。

票数 1

Data Science用户

发布于 2015-12-01 02:41:58

将日期转换为整数时间戳将使最近的观察结果具有更高的权重。

当你写：

由于最近的观测更为重要，我感兴趣的是使用加权观测。

您的意思是您已经知道日期将是您的分析中的一个预测因素，还是您想要人为地将此变量作为回归的预测因素？

如果是前者，那么上面的整数转换就可以做到这一点。如果是后者，则需要将日期与目标变量(例如乘法)组合起来。

票数 0

Data Science用户

发布于 2017-05-26 06:58:23

你能做的一件事就是计算时间间隔，即当前的时间观察时间。假设这是t，现在以c/t或c*exp(-t)的形式创建一个权重向量。可以使用caret::train > weights在插入符号中使用权重。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/9131

复制

相似问题

问我如何衡量不同的观测提供了一个时间范围？
EN

回答 4

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我如何衡量不同的观测提供了一个时间范围？EN

回答 4

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我如何衡量不同的观测提供了一个时间范围？
EN