有些观测值在原始状态下过于庞大,无法直接用预测建模算法进行建模。
常见的示例包括图像、音频和文本数据,但也可以轻松地包含具有数百万属性的表格数据。
特征提取是将这些类型的观测数据的维数自动降为一个可以建模的小得多的集合的过程。
对于表格数据,这可能包括投影方法,如主成分分析和无监督聚类方法。对于图像数据,这可能包括线或边缘检测。根据领域的不同,图像、视频和音频的观测结果也适用于许多相同类型的DSP方法。
如何从原始数据生成具有较高预测值的新特性,并将它们连接到原始数据?
例如,我有关于学生财富、健康、家庭状况的数据,我想以某种方式产生一个新的功能,我可以称之为“社会地位”,它是从原始数据生成的,具有很高的预测价值。这个是可能的吗?线性回归可以是我需要发现的好方法吗?
发布于 2017-10-31 16:14:57
“高预测值”只有在你试图预测的目标时才会被定义。似乎没有,而且您的目标是根据各种因素定义的某种比例对数据点进行聚类。毫无疑问,这些方法可以用于对数据点进行聚类,我建议您研究各种可用的方法:一些可能对您感兴趣的方法是聚集性的和分层的聚类。
现在,要回答这个问题,您肯定可以从数据集中的特性中生成新的功能,这些特性可能会帮助您实现目标,也可能不会帮助您实现目标。您可以:
在完成这些预处理步骤之后,您可以继续应用我提到的聚类方法将数据分组到它们各自的“社会地位”中。当然,需要进行大量的调整和试验。据我所见,并没有真正自动生成新特性的方法,而且大多数可用的方法将在很大程度上取决于您正在处理的数据类型和问题。
https://datascience.stackexchange.com/questions/24227
复制相似问题