文章/答案/技术大牛

发布

社区首页 >问答首页 >特征提取技术--总结数据序列

问特征提取技术--总结数据序列
EN

Data Science用户

提问于 2014-06-23 23:20:36

回答 4查看 4K关注 0票数 11

我经常在构建一个模型(分类或回归)，其中我有一些预测变量是序列，我一直试图找到技术建议，以便以尽可能好的方式总结它们，并将其作为预测器包含在模型中。

作为一个具体的例子，比如正在建立一个模型来预测一个客户是否会在接下来的90天内离开公司(在t和t+90之间的任何时间；因此是一个二元的结果)。可用的预测指标之一是t_0到t-1期间的客户财务余额水平。也许这是前12个月的每月观测(即12次测量)。

我正在寻找从本系列中构建特性的方法。我使用每个客户系列的描述，如平均值，高，低，std开发，适合OLS回归得到趋势。他们还有其他计算特征的方法吗？其他衡量变化或波动的指标？

添加：

正如在下面的响应中所提到的，我还考虑了(但忘了在这里添加)使用动态时间扭曲(DTW)，然后对生成的距离矩阵进行分层聚类--创建了一些集群，然后使用集群成员作为特性。评分测试数据可能必须遵循这样的过程，DTW是对新病例和集群质心-匹配新的数据系列与他们最近的中心.

feature-selection

time-series

machine-learning

回答 4

Data Science用户

发布于 2016-03-25 07:49:38

希望能看到一个收集特征工程/提取案例研究的方框。

如果这有帮助，请告诉我。

时间序列数据http://arxiv.org/ftp/q-bio/papers/0505/0505028.pdf的离散化
知识发现https://www.uni-marburg.de/fb12/datenbionik/pdf/pubs/2005/moerchen05optimizing中时间序列离散化的优化
体验SAX:时间序列http://cs.gmu.edu/~jessica/SAX_达米_preprint.pdf的一种新的符号表示
大数据系列http://acs.ict.ac.cn/storage/slides/Indexing_为_交互式的_勘探_的_大的_数据_Series.pdf的交互式检索
时间序列数据http://www.semanticscholar.org/paper/Generalized-Feature-Extraction-for-Structural-Olszewski-Maxion/7838bcd87bb6616e9fd3ffd92d4676a7082da34c中结构模式识别的广义特征提取
R中动态时间翘曲对齐的计算与可视化: dtw软件包https://cran.r-project.org/web/packages/dtw/vignettes/dtw.pdf

票数 7

Data Science用户

发布于 2014-06-24 00:54:13

你在这里要做的是减少你的特征的维度。您可以搜索降维以获得多个选项，但一个非常流行的技术是主成分分析(PCA)。主组件不像您提到的选项那样可以解释，但是它们在总结所有信息方面做得很好。

票数 2

Data Science用户

发布于 2014-06-24 03:50:41

特征提取一直是一个挑战，也是文献中讨论较少的话题，因为它依赖于广泛的应用。

一些你可以尝试的想法：

原始数据，日复一日地测量。这是很明显的，有一些暗示和额外的预处理(正常化)，以便使不同长度的时间表具有可比性。
较高的力矩:偏斜、峰度等
导数(S)：进化速度
时间跨度并不大，但也许值得尝试一些时间序列分析特性，例如自相关。
一些定制的功能，如打破时间线在周和测量量，你已经在每周单独测量。然后，一个非线性分类器就可以将第一周特征和最后一周特征结合起来，以便及时了解进化过程。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/548

复制

相似问题

问特征提取技术--总结数据序列
EN

回答 4

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问特征提取技术--总结数据序列EN

回答 4

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问特征提取技术--总结数据序列
EN