关于k近邻的属性,在统计学习元素第38页中,作者写道:
"...as维数p变大了,k最近邻域的度量大小也变大了。因此,以最近的邻域作为条件的代用品,我们将很不幸地失败。“
这是否意味着,当我们在模型中添加特征时,保持k常数,结果之间的距离和邻域的大小都会增加,所以模型的方差会增加吗?
发布于 2016-06-04 13:24:06
一般来说,随着维数的增加,点间距离的相对差异越来越小。对于d=1000维数,随机数据集中的任何点A比任何其他点都更接近给定点B,这是非常不可能的。在某种程度上,这可以通过这样的方式来解释:在d=1000中,A点在绝大多数维度上都很不可能接近点B(至少不太可能比任何其他任意点更近)。
另一个方面是,体积性质变得不直观地增加'd‘。例如,即使假设一个相对中等的d=25 (如果我没记错),单位立方体的体积(边长= 1)也比单位球的体积(直径=1的球体)大1,000,000。我之所以提到这一点,是因为您的引用提到了“公制大小”,但我不确定这对kNN有何影响。
https://stackoverflow.com/questions/37626779
复制相似问题