首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >特征提取技术--总结数据序列

特征提取技术--总结数据序列
EN

Data Science用户
提问于 2014-06-23 23:20:36
回答 4查看 4K关注 0票数 11

我经常在构建一个模型(分类或回归),其中我有一些预测变量是序列,我一直试图找到技术建议,以便以尽可能好的方式总结它们,并将其作为预测器包含在模型中。

作为一个具体的例子,比如正在建立一个模型来预测一个客户是否会在接下来的90天内离开公司(在t和t+90之间的任何时间;因此是一个二元的结果)。可用的预测指标之一是t_0到t-1期间的客户财务余额水平。也许这是前12个月的每月观测(即12次测量)。

我正在寻找从本系列中构建特性的方法。我使用每个客户系列的描述,如平均值,高,低,std开发,适合OLS回归得到趋势。他们还有其他计算特征的方法吗?其他衡量变化或波动的指标?

添加:

正如在下面的响应中所提到的,我还考虑了(但忘了在这里添加)使用动态时间扭曲(DTW),然后对生成的距离矩阵进行分层聚类--创建了一些集群,然后使用集群成员作为特性。评分测试数据可能必须遵循这样的过程,DTW是对新病例和集群质心-匹配新的数据系列与他们最近的中心.

EN

回答 4

Data Science用户

发布于 2016-03-25 07:49:38

希望能看到一个收集特征工程/提取案例研究的方框。

如果这有帮助,请告诉我。

  1. 时间序列数据http://arxiv.org/ftp/q-bio/papers/0505/0505028.pdf的离散化
  2. 知识发现https://www.uni-marburg.de/fb12/datenbionik/pdf/pubs/2005/moerchen05optimizing中时间序列离散化的优化
  3. 体验SAX:时间序列http://cs.gmu.edu/~jessica/SAX_达米_preprint.pdf的一种新的符号表示
  4. 大数据系列http://acs.ict.ac.cn/storage/slides/Indexing_为_交互式的_勘探_的_大的_数据_Series.pdf的交互式检索
  5. 时间序列数据http://www.semanticscholar.org/paper/Generalized-Feature-Extraction-for-Structural-Olszewski-Maxion/7838bcd87bb6616e9fd3ffd92d4676a7082da34c中结构模式识别的广义特征提取
  6. R中动态时间翘曲对齐的计算与可视化: dtw软件包https://cran.r-project.org/web/packages/dtw/vignettes/dtw.pdf
票数 7
EN

Data Science用户

发布于 2014-06-24 00:54:13

你在这里要做的是减少你的特征的维度。您可以搜索降维以获得多个选项,但一个非常流行的技术是主成分分析(PCA)。主组件不像您提到的选项那样可以解释,但是它们在总结所有信息方面做得很好。

票数 2
EN

Data Science用户

发布于 2014-06-24 03:50:41

特征提取一直是一个挑战,也是文献中讨论较少的话题,因为它依赖于广泛的应用。

一些你可以尝试的想法:

  • 原始数据,日复一日地测量。这是很明显的,有一些暗示和额外的预处理(正常化),以便使不同长度的时间表具有可比性。
  • 较高的力矩:偏斜、峰度等
  • 导数(S):进化速度
  • 时间跨度并不大,但也许值得尝试一些时间序列分析特性,例如自相关。
  • 一些定制的功能,如打破时间线在周和测量量,你已经在每周单独测量。然后,一个非线性分类器就可以将第一周特征和最后一周特征结合起来,以便及时了解进化过程。
票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/548

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档