我试图在一段时间内识别高命中率的IP。
我对某些特征进行了聚类,根据聚类的质心值,得到了12个聚类输出,其中8个是机器人,4个是人类。
现在,我可以使用什么技术来分析集群中的数据,以便了解集群中的数据点是否在正确的集群中。
换句话说,是否有任何统计方法来检查集群的质量。
我能想到的是,如果我取一个位于集群边界的数据点,如果我测量这个点到其他质心和它自己的质心的距离,那么我能知道这两个集群离我的点有多近吗,以及我的数据在集群中划分得有多好?
请指导如何测量我的集群的质量,关于数据点,以及这样做的标准技术是什么。
提前感谢。!!干杯!
发布于 2016-03-16 18:31:50
使用k-means,很有可能你已经有了一大堆垃圾。因为它是一种非常粗糙的启发式方法,除非你在设计特征时非常小心(在这一点上,你已经知道如何检查集群分配的质量),否则结果几乎不会比随机选择几个质心更好。特别是k-means,它对特征的规模非常敏感。如果你有不同类型和尺度的特征(例如,身高,鞋码,体重,体重指数),结果是非常不可靠的:这些变量的K均值是统计上的无稽之谈。
不要将您的数据转储到聚类算法中,并期望获得有用的东西。集群遵循GIGO原则:垃圾入垃圾出。相反,您需要按照以下步骤进行操作:
例如,如果您盲目地将客户数据放入聚类算法,则很可能会决定最佳答案为2个群集,对应于属性"gender=m“和”gender=f“,因为这是您数据中最极端的因素。但是因为这是一个know属性,所以这个结果是完全无用的。
https://stackoverflow.com/questions/36028821
复制相似问题