如果我将Scikit的DBSCAN (http://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html)应用于相似矩阵,就会得到一系列标签。其中一些标签是-1。文件称它们为噪音样本。
这些是什么?它们都属于一个集群,还是每个集群都属于自己的集群,因为它们很吵?
谢谢
发布于 2017-07-25 20:46:10
这些并不完全是集群的一部分。它们只是不属于任何集群的点,在某种程度上可以被“忽略”。
记住,DBSCAN代表“基于密度的带噪声的应用程序空间聚类”。DBSCAN检查以确保一个点在指定的范围内有足够的邻居来将这些点分类到集群中。
但是,那些不符合进入任何主要集群的标准的点会发生什么呢?如果一个点在指定的半径内没有足够的邻居被认为是集群的一部分,该怎么办?这些点被赋予-1的聚类标签,并被认为是噪声。
,那又怎样?
如果你是在分析数据点,而你只对一般的集群感兴趣,你就会降低数据的大小,减少噪音。或者,如果使用聚类分析对数据进行分类,则在某些情况下可以将噪声作为异常值丢弃。
在异常检测中,不属于任何类别的点也很重要,因为它们可能代表问题或罕见事件。
https://stackoverflow.com/questions/45313176
复制相似问题