我正在编写一个python脚本来分析从设备捕获的一些数据。我想自动化查找我的数据是否与特定模式匹配的任务。在下面给出的图像中,我想确定在给定的捕获数据集中,是否可以使用脚本将数据分类为3个不同的集群。这些集群的范围不是预定义的。我想知道的是,如果我在我的数据中看到三个不同的集群,它们之间的距离是合理的-如果不是,那么我的测试就会失败。我只是想知道在这里使用什么是最好的数据分析算法。我正在阅读有关聚类算法的文章,并打算从K-means聚类开始,但谁有更好的想法?
指向捕获数据的示例集的http://imgur.com/I4jMqpk链接-请注意颜色编码的群集
发布于 2014-06-06 14:08:24
更好的想法是从一个好的问题陈述开始。如果你不能严格定义你正在寻找的东西,那么没有任何方法是合适的。如果你能准确地写下你需要的东西,那么你就可以寻找解决方案。聚类方法是非常奇怪的对象,它们总是“成功”,它们总是以某种方式聚类你的数据,这对人类来说是完全不可接受的。如果您的数据看起来像您绘制的(这是2d情况,点是“密集”点云的一部分),那么最合适的方法似乎类似于DBScan/Optics,所以非常简单的方法,这将导致更多的“人类”集群(而不是k-means,它不会将您的数据划分为那些“云”,而是经常将它们分开)。
https://stackoverflow.com/questions/24070928
复制相似问题