我经常在构建一个模型(分类或回归),其中我有一些预测变量是序列,我一直试图找到技术建议,以便以尽可能好的方式总结它们,并将其作为预测器包含在模型中。
作为一个具体的例子,比如正在建立一个模型来预测一个客户是否会在接下来的90天内离开公司(在t和t+90之间的任何时间;因此是一个二元的结果)。可用的预测指标之一是t_0到t-1期间的客户财务余额水平。也许这是前12个月的每月观测(即12次测量)。
我正在寻找从本系列中构建特性的方法。我使用每个客户系列的描述,如平均值,高,低,std开发,适合OLS回归得到趋势。他们还有其他计算特征的方法吗?其他衡量变化或波动的指标?
添加:
正如在下面的响应中所提到的,我还考虑了(但忘了在这里添加)使用动态时间扭曲(DTW),然后对生成的距离矩阵进行分层聚类--创建了一些集群,然后使用集群成员作为特性。评分测试数据可能必须遵循这样的过程,DTW是对新病例和集群质心-匹配新的数据系列与他们最近的中心.
发布于 2016-03-25 07:49:38
希望能看到一个收集特征工程/提取案例研究的方框。
如果这有帮助,请告诉我。
发布于 2014-06-24 00:54:13
你在这里要做的是减少你的特征的维度。您可以搜索降维以获得多个选项,但一个非常流行的技术是主成分分析(PCA)。主组件不像您提到的选项那样可以解释,但是它们在总结所有信息方面做得很好。
发布于 2014-06-24 03:50:41
特征提取一直是一个挑战,也是文献中讨论较少的话题,因为它依赖于广泛的应用。
一些你可以尝试的想法:
https://datascience.stackexchange.com/questions/548
复制相似问题