我知道DBSCAN需要两个参数(minPts和Eps)。然而,我对光学需要什么参数感到困惑,因为一些消息来源说它需要每股收益,而另一些人说它只需要minPts。
如果我试图自动确定最适合丢弃离群值的参数值,那么使用哪种算法会更好?
发布于 2016-06-28 18:58:20
光纤可以与eps=infinity一起运行。但是它的复杂度是O(n^2)。(假设您有一个实际使用索引进行加速的实现。)
但光学没有像DBSCAN那样定义明确的噪声概念。你能得到的最接近的是集群层次结构的最高层(即完整的数据集)减去集群下面的任何东西。但是给定一个层次聚类,你可以在层次中的多个层次上有“噪声”,所以噪声的概念在这里不再有效。
发布于 2020-04-28 10:14:20
总而言之,有几点不同:
内存成本:光学群集技术需要更多内存,因为它维护一个优先级队列(Min Heap),以确定下一个数据点,该数据点根据可达性距离最接近当前正在处理的点。它还需要更多的计算能力,因为最近邻查询比DBSCAN中的radius查询更复杂。
更少的参数:光学聚类技术不需要维护epsilon参数,并且仅在上面的伪代码中给出,以减少所需的时间。这导致了参数调整的分析过程的减少。
光纤不会将给定数据隔离到集群中。它只产生一个可达性距离图,并根据程序员的解释相应地聚类点。
光学器件对参数设置相对不敏感。如果参数“足够大”,结果会很好。
有关更多详细信息,请参阅
https://stackoverflow.com/questions/38064386
复制相似问题