目前,我正在回顾一些与机器学习相关的概念,我开始怀疑K分类器的超参数选择。
假设您需要求解一个分类任务,其数量与M相等:我在想,我们的分类器参数K的最佳选择应该是K>M。
这样,我们避免了所有的病理病例,其中一个样本可能在所有M类的中间,然后有一个领带。例如,考虑下面的示例,其中我们有M=3,每个几何形状表示一个类:

假设K<=M:您肯定会在样本1、2和3中间有一个领带。
显然,这只是一个玩具的例子,但我认为它足以说明我的想法。我试图寻找一个答案,但我没有找到任何资源提到这一点,我是错在某种程度上,或这一推理可能是合理的?
发布于 2021-01-04 00:17:22
你的想法并没有错,但是在k-NN中,总是会出现这样的情况:你有两个或更多类的相同票数(例如,你有k=6,你有一个类别的3个样本和另一个类的3个样本)。使用您的解决方案,您只是克服了一个非常小的关系情况,而您选择的k可能不是用于分类的最优k,这是您的主要目标(也就是说,您可能会用一个次优的k来损害您的分类性能,这样您就不会得到一种类型的关系)。
因为也有其他时候的关系,你总是需要有一个平局的条件。我已经看到了很多这样的策略,比如将k减少一个,直到你打破平局,选择最小距离的类,选择样本最少的类,等等。
因为您已经有了这样的条件,所以您也可以处理您的情况,而不需要选择次优的k。
发布于 2021-01-04 09:45:41
在已经很好的答案中添加一些关于为k选择最佳k-NN的问题的引用。
那么如何选择最优的K值呢?
K的最佳选择取决于数据;一般说来,k的较大值减少了噪声对分类的影响,但使类之间的边界不那么清晰。一个好的k可以通过各种启发式技术来选择(参见超参数优化)。该类被预测为最近训练样本的类(即k= 1)的特殊情况称为最近邻算法。如果有噪声或不相关的特征,或者特征尺度与其重要性不一致,则k-NN算法的精度会严重下降。为了改进分类,人们对特征的选择或缩放做了大量的研究工作。一种特别流行的需要引证方法是使用进化算法来优化特征缩放。另一种流行的方法是通过培训数据与培训课程之间的相互信息来缩放特征。在二进制(两类)分类问题中,选择k作为奇数是很有帮助的,因为这避免了票数的限制。在这种情况下,一种常用的选择经验最优k的方法是通过自助法。
K-最近邻算法(K)是一种广泛应用的非参数分类和回归方法.研究了用左一输出交叉验证(LOOCV)选择k时,k-NN估计量的均方误差.虽然已知k的选择是渐近一致的,但以前并不知道它是一个最优k,我们用k-NN估计证明了该估计量的均方误差与k-NN估计的最小均方误差接近,其中极小值在k的所有选择之上。
https://datascience.stackexchange.com/questions/87442
复制相似问题