由于各种维度诅咒的存在,许多常用的预测技术对高维数据的精度和速度都会降低。帮助有效处理高维数据的一些最有用的技术/技巧/启发式方法是什么?例如,
发布于 2015-01-26 08:00:14
这是一个非常广泛的问题,我认为不可能在一个单一的答案中全面讨论这个问题。因此,我认为提供一些有关答案和(或)资源的指示会更有益。这正是我要做的,提供以下信息和我的想法。
首先,我要提到来自Microsoft的Burges (2009)的优秀而全面的降维教程。他经常在专著中触及数据的高维方面。本文将降维称为维数约简,对这一问题进行了理论介绍,提出了一种由射影方法和流形建模方法组成的降维方法的分类方法,并对每一类方法进行了综述。
“投射追踪”方法包括独立分量分析(ICA)、主成分分析( PCA )及其变异,如核主元分析( PCA )、概率PCA、典型相关分析( CCA )及其核CCA变异、线性判别分析(LDA)、核维约简(KDR)等。综述的流形方法包括多维尺度( MDS )及其具有里程碑意义的MDS变异、Isomap、局部线性嵌入和图形化方法(如Laplacian特征映射和谱聚类)。我在这里列出了大多数评审的方法,以防您无法访问原始出版物,无论是联机(链接)还是脱机(参考)。
关于“全面”一词,我对上面提到的工作提出了一个警告。虽然它确实相当全面,但这是相对的,因为一些降维方法没有在专著中讨论,特别是那些侧重于不可观测(潜在)变量的方法。其中一些提到,尽管,参考另一个来源-一本关于降维的书。
现在,我将通过提及我的相关或相关的答案,简要地介绍这一议题的几个较窄的方面。关于最近邻居(NN)的高维数据的-type方法,请参阅我的答案这里 (我特别建议查看列表中的论文#4 )。维数诅咒的影响之一是高维数据往往是稀疏的。考虑到这一事实,我相信我对稀疏和高维数据的回归和主成分分析的相关答案这里和这里可能会有所帮助。
Burges,C.J.C.(2010年)。降维:导览。机器学习的基础和趋势,2(4),275-365。doi:10.1561/2200000002
发布于 2016-07-22 20:26:30
Aleksander给出了一个非常全面的答案,但有几个被广泛起诉:
对于维数约简,主成分分析是used.This,但是,只做线性变换,对于非线性维数约简,流形学习是你要寻找的。
将低维数据投影到高维可以使用内核来完成。通常是这样做的,当分类器无法在当前维中找到一个线性分离平面时,它将能够找到一个将高维类分离的线性超平面。核函数在支持向量机中得到了广泛的应用。
https://datascience.stackexchange.com/questions/4942
复制相似问题