我正在玩功能(输入数据),以提高我的模型的准确性。
如果我有一个原始的时间序列数据,功能工程是否意味着提取我的原始数据的属性或特征并将其作为输入?或者,算法会从时间序列本身学习这些信息吗?
换句话说,我应该创建一个由移动平均线组成的列,还是该算法从原始数据中提取移动平均值?
特征工程仅仅是对自变量的处理吗?还是提取依赖于其他原始数据的特性?
编辑:
这里还有另一个问题:如果我有一个分类特性,那么将其作为一个热向量(例如,5个二进制输入)还是将其作为一个范围0,4的输入比较好呢?
人们如何凭直觉知道这些问题的答案?
发布于 2017-08-09 22:11:00
功能工程( Feature )是指创建以前没有的新信息,通常是通过使用特定领域的知识,或者创建新的特性,这些特性是您已经拥有的其他特性的转换,例如添加交互项或根据您的状态创建移动平均值。一个模型通常不能“获取”它所没有的信息,而这正是巧妙和创造性发挥作用的地方。
您应该使用一个热特性还是保留一个功能作为分类,这取决于建模方法。有些人,如randomForest,会很好地使用分类预测器;另一些人则更喜欢重新编码。
对这些问题的直觉伴随着实践和经验。没有什么可以代替尝试和比较玩具的例子,看看你的选择如何影响结果。你应该花点时间去做这件事,然后直觉就会随之而来。
https://datascience.stackexchange.com/questions/22089
复制相似问题