我正在尝试用SPSS做聚类分析。在R中,我们可以使用轮廓图来确定最佳聚类数。
如何使用SPSS找到最优聚类数?
PS。我是第一次接触SPSS。
发布于 2018-08-22 13:31:22
您可以使用STATS CLUS SIL命令来生成轮廓图和分数,如果这是您特别想要的。
主要使用默认值的示例语法可能如下所示:
STATS CLUS SIL
CLUSTER=clus_var /* var w cluster classifications */
VARIABLES=pred_var1 TO pred_var10 /* vars used to form clusters */
NEXTBEST=nb_clus_var /* output var. holds next best classifications */
SILHOUETTE=s_value /* output var. holds silhouette scores */
DISSIMILARITY=EUCLID /* make sure this matches measure in kmeans */
MINKOWSKIPOWER=2
/OPTIONS MISSING=RESCALE RENUMBERORDINAL=NO
/OUTPUT HISTOGRAM=YES ORIENTATION=HORIZONTAL THREEDBAR=YES THREEDCOUNTS=NO .可能有帮助的链接:
IBM: Using the silhouette procedure to evaluate kmeans
stackoverflow: How to visualize the effect of running means algorithm in SPSS
Stats.StackExchange: How to Calculate silhouette coefficient in SPSS for clustered data set?
另外,您还可以考虑将DISCRIMINANT命令作为评估集群独特性的另一种工具。
DISCRIMINANT
/GROUPS=clus_var4 (1 4) /* assumes 4 cluster classifications */
/VARIABLES=pred_var1 TO pred_var10 /* vars used to form clusters */
/ANAL all
/METHOD = MAHAL
/PRIORS SIZE
/HISTORY = STEP
/ROTATE struct
/STATISTICS = CROSSVALID COEFF
/CLASSIFY = NONMISSING POOLED .您可以查看输出的分类统计数据(交叉验证),以了解预测的集群分类与实际分类匹配的频率。
https://stackoverflow.com/questions/51937942
复制相似问题