我在Scikit中用k均值进行聚类,学习398个样本,306个特性。特征矩阵稀疏,簇数为4。为了改进聚类,我尝试了两种方法:
我的问题是:
发布于 2016-08-03 21:48:16
永远不要在不同的投影、转换或数据集之间比较平方和类似的度量.
要知道为什么,只需将每个特性乘以0.5 -你的SSQ会下降0.25。所以为了“改进”你的数据集,你只需要把它缩小到一个很小的尺寸.
这些指标只能在完全相同的输入和参数上使用。你甚至不能用平方和来比较k-均值和不同的k,因为较大的k会赢。你所能做的就是多次随机尝试,然后保持你找到的最好的最小值。
发布于 2016-08-05 07:20:43
有306个特性,您是在维度诅咒下面。306个维度的聚类是没有意义的。因此,我不会在集群之后选择特性。
要获得可解释的结果,您需要降低维度。对于398个样本,你需要低维数(2,3,也许4)。你的第二维度的主成分分析很好。你可以试试3。
在聚类之前选择重要特性的方法可能会有问题。无论如何,2/3/4的“最佳”功能在您的情况下是否有意义?
https://stackoverflow.com/questions/38742613
复制相似问题