我不确定为什么弯曲法是确定DBSCAN算法的epsilon值的近似正确方法。例如,在下面的示例中:

我考虑了距离第五个最近邻居的距离,并且这些点是从第五个邻居距离最小的一个到距离第五个邻居最远的一个。
我考虑了欧几里德距离的情节。
例如,我知道点0-20是最接近它们的第5个最近邻居的点,那么肘部的点是离它们的第5个最近邻居中等距离的点,所以它们的密度是中等的。然后我们到达密度非常低的点,远离他们最近的第五个邻居。
但是我不能理解为什么选择epsilon的值作为epsilon的值是合理的,也就是肘部第k个最近邻点之间的距离。
谢谢你的帮助。
发布于 2021-11-18 14:53:30
来自论文dbscan: Fast Density-Based Clustering with R (第11页)
要找到合适的eps值,我们可以按降序绘制这些点的kNN距离(即每个点到其第k个最近邻居的距离),并在图中寻找膝部。这种启发式方法背后的思想是,位于集群内的点将具有较小的k最近邻距离,因为它们与同一集群中的其他点很近,而噪声点更加孤立,并且具有相当大的kNN距离。
我们需要一个分界值来决定什么k-NN距离被认为是“小的”,什么是“大的”。膝部启发式将epsilon的这种截止点识别为k-NN距离,该距离开始迅速增加。
https://stackoverflow.com/questions/70010774
复制相似问题