我对k均值损失函数有点迷惑。我通常找到的是损失函数:

如果观测x_i属于集群k,则r_{nk}是印地克,而\mu_k是集群中心。然而,在哈斯蒂,提布希拉尼和弗里德曼的书中,我发现:

这样,拥有更多观察值的集群对偏离集群中心的反应更敏感,因为n_k代表集群k中的观察点数量。有人知道哪个是正确的吗?如果你有“统计学习的原理”这本书,其推导在第508- 510页。
干杯
发布于 2021-09-08 16:43:29
实际上,正确的是你提到的第一个公式(非加权公式),而书中第二个公式的推导是错误的。书中用来推导公式的主要公式(第14.3.6节中的公式14.31 )是不正确的,他们声称第一行和第二行相等。这是一个小的反例,其中我们有一个簇(即K=1)和三个点(1,2,3)。同样在书中,510页中的算法14.1是将问题中的第一个损失函数最小化的算法,而不是它们的损失函数。
我并不是说他们的最终公式没有意义,只是这个公式的推导在我看来是错误的,他们展示的算法就是已知的最小化第一个函数的算法。请注意,在他们的算法中,权重N_k不存在,唯一确定一个点属于哪个簇的是该点与相关质心之间的距离,N_k与此无关,这表明该算法不是其函数的求解器。
此外,如果我们有不平衡的集群,从某种意义上说,一些集群的点数比其他集群少得多,他们的N_k权重公式促进了大集群的切割部分,并将它们分配给小的相邻集群,以避免出现大的N_k,这意味着更大的损失。
https://stackoverflow.com/questions/62778153
复制相似问题