我正在对一些不同程度的数据点进行聚类,比如低、中和高。是否应该将它们转换为低1,med-2,hig-3这样的数字,并直接应用k方法,还是应该使用任何其他方法?
我的表演是这样的,但并不总是能取得好的效果。有时它能带来很好的效果,但有时却没有。
发布于 2019-03-22 14:09:26
把连续数据转换成离散数据是可以的,只要它被看作是离散的,而不是连续的。现在k-均值基本上只适用于连续数据。所以我认为,更好的选择是像k-prototypes或k-modes这样的算法。对于连续数据和分类数据,k-prototype都可以工作,而k模式只适用于分类数据。
发布于 2019-03-22 19:05:27
K-均值在这些数据上没有多大意义。
它是为连续变量设计的。其中,命名的均值是有意义的,并将最小平方误差最小化。
对于分类数据,使用k-medoid或k模式代替!
此外,您需要仔细考虑变量的重要性。
注意,在分类/离散数据上,优化算法常常陷入局部最优,因为没有“连续”路径来改进结果。正因为如此,结果有时是好的,有时是坏的。然后,您可以增加重新启动的次数,但是随着复杂性的增加,幸运猜测的机会会减少.
https://stackoverflow.com/questions/55301111
复制相似问题