问K-均值聚类损失函数
EN

Stack Overflow用户

提问于 2020-07-07 22:59:01

回答 1查看 1.9K关注 0票数 2

我对k均值损失函数有点迷惑。我通常找到的是损失函数：

如果观测x_i属于集群k，则r_{nk}是印地克，而\mu_k是集群中心。然而，在哈斯蒂，提布希拉尼和弗里德曼的书中，我发现：

这样，拥有更多观察值的集群对偏离集群中心的反应更敏感，因为n_k代表集群k中的观察点数量。有人知道哪个是正确的吗？如果你有“统计学习的原理”这本书，其推导在第508- 510页。

干杯

cluster-analysis

k-means

回答 1

Stack Overflow用户

发布于 2021-09-08 16:43:29

实际上，正确的是你提到的第一个公式(非加权公式)，而书中第二个公式的推导是错误的。书中用来推导公式的主要公式(第14.3.6节中的公式14.31 )是不正确的，他们声称第一行和第二行相等。这是一个小的反例，其中我们有一个簇(即K=1)和三个点(1,2,3)。同样在书中，510页中的算法14.1是将问题中的第一个损失函数最小化的算法，而不是它们的损失函数。

我并不是说他们的最终公式没有意义，只是这个公式的推导在我看来是错误的，他们展示的算法就是已知的最小化第一个函数的算法。请注意，在他们的算法中，权重N_k不存在，唯一确定一个点属于哪个簇的是该点与相关质心之间的距离，N_k与此无关，这表明该算法不是其函数的求解器。

此外，如果我们有不平衡的集群，从某种意义上说，一些集群的点数比其他集群少得多，他们的N_k权重公式促进了大集群的切割部分，并将它们分配给小的相邻集群，以避免出现大的N_k，这意味着更大的损失。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62778153

复制

相似问题

问K-均值聚类损失函数
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问K-均值聚类损失函数EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问K-均值聚类损失函数
EN