首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >k-means聚类与暴力创建组的区别

k-means聚类与暴力创建组的区别
EN

Stack Overflow用户
提问于 2018-02-04 01:54:53
回答 1查看 124关注 0票数 0

我的任务是根据数字尺寸--直径、厚度--和分类尺寸--材料、热处理等--查找相似的零件。我有一个包含100万个零件的清单。作为一名程序员,我的方法是将所有部件放在一个列表中,弹出第一个部件,并将其作为一个新的“簇”,根据尺寸比较列表中的其余部件。当列表中的一个部分与分类维度和数字维度匹配时--在5%以内--我将把该部分添加到集群中并从初始列表中删除。一旦列表中的所有零件都与初始群集零件的尺寸进行了比较,我将从列表中弹出下一个零件,然后重新开始,填充群集,直到原始列表中没有任何零件。这是一种程序化的方法。我不确定这是否是将零件分类到“簇”的最有效方法,或者k-means聚类是否会是更好的方法。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-02-04 18:53:11

定义“更好”。

你所做的似乎与“领导者”集群有关。但这是一种非常原始的集群形式,通常不会产生有竞争力的结果。但是有一百万个点,你的选择是有限的,而且kmeans不能很好地处理分类数据。

但是,在你决定什么是“更好的”之前,你的贪婪方法可能没有什么“错”。

一种明显的优化方法是首先根据分类属性拆分所有数据(因为您希望它们完全匹配)。这只需要对数据集和哈希表进行一次遍历。如果剩下的部分足够小,您可以在每个部分上尝试kmeans (但如何选择k)或DBSCAN (可能使用已有的相同阈值)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48600277

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档