首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在对机器人进行聚类后,开发了一个网络机器人爬虫系统

在对机器人进行聚类后,开发了一个网络机器人爬虫系统
EN

Stack Overflow用户
提问于 2016-03-16 15:05:22
回答 1查看 46关注 0票数 0

我试图在一段时间内识别高命中率的IP。

我对某些特征进行了聚类,根据聚类的质心值,得到了12个聚类输出,其中8个是机器人,4个是人类。

现在,我可以使用什么技术来分析集群中的数据,以便了解集群中的数据点是否在正确的集群中。

换句话说,是否有任何统计方法来检查集群的质量。

我能想到的是,如果我取一个位于集群边界的数据点,如果我测量这个点到其他质心和它自己的质心的距离,那么我能知道这两个集群离我的点有多近吗,以及我的数据在集群中划分得有多好?

请指导如何测量我的集群的质量,关于数据点,以及这样做的标准技术是什么。

提前感谢。!!干杯!

EN

回答 1

Stack Overflow用户

发布于 2016-03-16 18:31:50

使用k-means,很有可能你已经有了一大堆垃圾。因为它是一种非常粗糙的启发式方法,除非你在设计特征时非常小心(在这一点上,你已经知道如何检查集群分配的质量),否则结果几乎不会比随机选择几个质心更好。特别是k-means,它对特征的规模非常敏感。如果你有不同类型和尺度的特征(例如,身高,鞋码,体重,体重指数),结果是非常不可靠的:这些变量的K均值是统计上的无稽之谈。

不要将您的数据转储到聚类算法中,并期望获得有用的东西。集群遵循GIGO原则:垃圾入垃圾出。相反,您需要按照以下步骤进行操作:

  1. 确定您的域中什么是好的集群。这是一个非常有数据和问题的聚类算法,使用非常类似的objective.
  2. find数据转换、距离函数或修改聚类算法,以与您的objective
  3. carefully保持一致-仔细检查结果,找出琐碎的、不需要的、有偏见的和随机的解决方案。

例如,如果您盲目地将客户数据放入聚类算法,则很可能会决定最佳答案为2个群集,对应于属性"gender=m“和”gender=f“,因为这是您数据中最极端的因素。但是因为这是一个know属性,所以这个结果是完全无用的。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36028821

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档