文章/答案/技术大牛

发布

社区首页 >问答首页 >DBSCAN聚类过程的奇怪结果

问DBSCAN聚类过程的奇怪结果
EN

Stack Overflow用户

提问于 2019-11-17 23:13:20

回答 1查看 124关注 0票数 1

我正在处理与集群任务相关的任务。DBSCAN fit过程产生奇怪的结果，我不明白我的错误在哪里。我简化了代码，只留下了重要的部分：

clusters = pd.read_csv('cl.csv')

def stb_metric(mac1, mac2):
    if mac1[0] == mac2[0]:
        return 0
    print(mac1[0], mac2[0])
    return 1

X = clusters.mac.unique().reshape(-1, 1)
db = DBSCAN(eps = 1, min_samples = 1, metric = stb_metric).fit(X)

在'stb_metric‘输出中，我观察到不存在的mac1或mac2。我已附加csv文件用于测试。输出如下：

(8.354702571827299e+18, 2.9454553327798374e+17)
(8.354702571827299e+18, 6.197480706091255e+17)
(8.354702571827299e+18, 2.2314854373712773e+18)
(8.354702571827299e+18, 2.5842000416550815e+18)
(8.354702571827299e+18, 3.525512049236994e+18)
(8.354702571827299e+18, 3.678065423036415e+18)
(8.354702571827299e+18, 5.232482030018176e+18)
(8.354702571827299e+18, 9.212176082078934e+18)
(8.354702571827299e+18, 1.0293104245975763e+19)
(8.354702571827299e+18, 1.2339113289676194e+19)
(8.354702571827299e+18, 1.2848720441363968e+19) etc

Data where reproduced the problem

cluster-analysis

python

pandas

scikit-learn

回答 1

Stack Overflow用户

发布于 2019-11-18 03:07:35

首先，结合使用离散度量和minpts=1意味着您正在滥用DBSCAN来检测重复项。要做到这一点，有更有效、更聪明的方法。

现在你的问题可能是: sklearn。

它试图变得聪明，并可能试图使用球树来加速这一过程。不幸的是，纯python很慢，所以这些部分是用Cython构建的，这最终迫使您的数据转换为浮点向量-因为这是这些子例程唯一支持的数据类型。

解决方法是使用algorithm="brute"，但运行时间将为O(n²)。不幸的是，使用预先计算的距离矩阵(如果你能负担得起O(n²)内存)通常比使用带有sklearn的ufunc距离更好。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58901904

复制

相似问题

问DBSCAN聚类过程的奇怪结果
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问DBSCAN聚类过程的奇怪结果EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问DBSCAN聚类过程的奇怪结果
EN