首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我如何衡量不同的观测提供了一个时间范围?

我如何衡量不同的观测提供了一个时间范围?
EN

Data Science用户
提问于 2015-11-30 14:32:56
回答 4查看 215关注 0票数 4

我有623项观察,其中包括一个连续因变量和13个自变量(连续、分类和序数),这是根据研究经验和文献综述确定的。我考虑做几个回归分析来估计因变量,并研究其上的预测因素(如果它们是正的、负的以及它们的大小)。提供的数据为期10年。由于最近的观测更为重要,我感兴趣的是使用加权观测。我如何处理这个问题并验证我的方法?

EN

回答 4

Data Science用户

发布于 2017-01-25 23:26:23

因此,观察年被认为是一个对因变量有积极影响的预测变量。然而,年份本身对因变量本身没有任何影响;相反,是在同一时期内发生的其他因素导致了改进。

对于具有足够交互深度的树木来说,这听起来像是一个挑战,因为您已经发现,这一年与其他导致改进的因素相互作用。这里的普通最小二乘回归不能很好地捕捉到这种交互作用。

我建议建立以下回归模型:

  1. 将date列转换为(CurrentYear - YearOfDateStamp)为NumOfYearsAway。我建议把它作为一个数字特性,而不是一个绝对的特征。这将允许基于树的模型在(6,7,10)中选择像NumOfYearsAway >= 5.5这样的裁剪,而不是NumOfYearsAway。当评分数据集中出现NumOfYearsAway =0时,这也可能会更有帮助,因为您可能没有当前年份数据集的培训数据。
  2. 拟合一个基于树的模型,我会选择XGBoost,用通常的CV来调优超参数,比如交互深度。

然而,在应用程序中选择XGBoost的缺点是,对特定变量对目标变量的影响的解释并不明显。您需要部分依赖图来观察目标变量随定制输入变量的变化情况。如果可解释性是非常重要的,人们可以选择一个单一的树回归模型,如rpart。

票数 1
EN

Data Science用户

发布于 2015-12-01 02:41:58

将日期转换为整数时间戳将使最近的观察结果具有更高的权重。

当你写:

由于最近的观测更为重要,我感兴趣的是使用加权观测。

您的意思是您已经知道日期将是您的分析中的一个预测因素,还是您想要人为地将此变量作为回归的预测因素?

如果是前者,那么上面的整数转换就可以做到这一点。如果是后者,则需要将日期与目标变量(例如乘法)组合起来。

票数 0
EN

Data Science用户

发布于 2017-05-26 06:58:23

你能做的一件事就是计算时间间隔,即当前的时间观察时间。假设这是t,现在以c/t或c*exp(-t)的形式创建一个权重向量。可以使用caret::train > weights在插入符号中使用权重。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/9131

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档