文章/答案/技术大牛

发布

社区首页 >问答首页 >在对机器人进行聚类后，开发了一个网络机器人爬虫系统

问在对机器人进行聚类后，开发了一个网络机器人爬虫系统
EN

Stack Overflow用户

提问于 2016-03-16 15:05:22

回答 1查看 46关注 0票数 0

我试图在一段时间内识别高命中率的IP。

我对某些特征进行了聚类，根据聚类的质心值，得到了12个聚类输出，其中8个是机器人，4个是人类。

现在，我可以使用什么技术来分析集群中的数据，以便了解集群中的数据点是否在正确的集群中。

换句话说，是否有任何统计方法来检查集群的质量。

我能想到的是，如果我取一个位于集群边界的数据点，如果我测量这个点到其他质心和它自己的质心的距离，那么我能知道这两个集群离我的点有多近吗，以及我的数据在集群中划分得有多好？

请指导如何测量我的集群的质量，关于数据点，以及这样做的标准技术是什么。

提前感谢。！！干杯！

machine-learning

cluster-computing

cluster-analysis

k-means

回答 1

Stack Overflow用户

发布于 2016-03-16 18:31:50

使用k-means，很有可能你已经有了一大堆垃圾。因为它是一种非常粗糙的启发式方法，除非你在设计特征时非常小心(在这一点上，你已经知道如何检查集群分配的质量)，否则结果几乎不会比随机选择几个质心更好。特别是k-means，它对特征的规模非常敏感。如果你有不同类型和尺度的特征(例如，身高，鞋码，体重，体重指数)，结果是非常不可靠的:这些变量的K均值是统计上的无稽之谈。

不要将您的数据转储到聚类算法中，并期望获得有用的东西。集群遵循GIGO原则:垃圾入垃圾出。相反，您需要按照以下步骤进行操作：

确定您的域中什么是好的集群。这是一个非常有数据和问题的聚类算法，使用非常类似的objective.
find数据转换、距离函数或修改聚类算法，以与您的objective
carefully保持一致-仔细检查结果，找出琐碎的、不需要的、有偏见的和随机的解决方案。

例如，如果您盲目地将客户数据放入聚类算法，则很可能会决定最佳答案为2个群集，对应于属性"gender=m“和”gender=f“，因为这是您数据中最极端的因素。但是因为这是一个know属性，所以这个结果是完全无用的。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/36028821

复制

相似问题

问在对机器人进行聚类后，开发了一个网络机器人爬虫系统
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在对机器人进行聚类后，开发了一个网络机器人爬虫系统EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在对机器人进行聚类后，开发了一个网络机器人爬虫系统
EN