搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏Soul Joy Hub
密度聚类DBSCAN、HDBSCAN
密度聚类DBSCAN、HDBSCAN DBSCAN DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法 HDBSCAN聚类 1、空间变换 ? 所谓的空间变换，就是我们用互达距离来表示两个样本点之间的距离。这样会使得，**密集区域的样本距离不受影响，而稀疏区域的样本点与其他样本点的距离被放大。 HDBSCAN使用最小生成树算法： ? 3、层次聚类结构第一步：将树中的所有边按照距离递增排序第二步：然后依次选取每条边，将边的链接的两个子图进行合并。这样就构建出了聚合树： ? HDBSCAN定义了一种基于稳定度的提取族方式那么如何来定义树中节点的稳定度呢？我们先定义一个λ，它是距离的倒数： ?
5.2K20发布于 2020-10-27
来自专栏Python数据科学
厉害了！Scikit-Learn 新版再次重磅升级
特性2：HDBSCAN: hierarchical density-based clustering https://scikit-learn.org/stable/modules/generated/ sklearn.cluster.HDBSCAN.html HDBSCAN通过同时在多个epsilon值上执行修改版本的cluster.DBSCAN，cluster.HDBSCAN可以找到具有不同密度的聚类 import numpy as np from sklearn.cluster import HDBSCAN from sklearn.datasets import load_digits from = HDBSCAN(min_cluster_size=15).fit(X) 非噪声标签 = hdbscan.labels_[hdbscan.labels_ ! = -1] print(f"找到的聚类数：{len(np.unique(非噪声标签))}") print(v_measure_score(true_labels[hdbscan.labels_ !
90420编辑于 2023-08-29
来自专栏最新Python入门基础合集
机器学习中的密度聚类算法：深入解析与应用
密度聚类算法的主要类型密度聚类算法有多种实现方式，其中最具代表性的包括DBSCAN（Density-Based Spatial Clustering of Applications with Noise）、HDBSCAN HDBSCAN：HDBSCAN是对DBSCAN算法的改进，引入了层次聚类的思想。它根据可变的距离及聚类点数目阀值，将不同密度的聚类点与稀疏噪点分离，从而得到更加稳定的聚类结果。 HDBSCAN算法降低了结果对参数的敏感度，使得聚类结果更加可靠。 OPTICS：OPTICS算法根据相邻要素之间的距离和紧密度，将不同密度的聚类点与噪点相分离。以下是一个简要总结密度聚类算法特点的表格：算法类型优点缺点 DBSCAN 自动发现聚类个数，发现任意形状聚类，对噪声点不敏感参数选择困难，计算复杂度高，无法处理密度变化大的数据集 HDBSCAN
81610编辑于 2024-12-24
来自专栏机器学习/数据可视化
常用聚类算法综述
下面会介绍实际应用中常用的HDBSCAN基于图的聚类：通过建图来进行聚类，这是聚类算法中的大头，很多较新的聚类算法都有图聚类的思想。层次密度聚类 HDBSCAN这是一个对DBSCAN的改进算法，结合了密度聚类和层次聚类。层次聚类要理解HDBSCAN，首先要搞清楚层次聚类到底是什么。层次聚类有自上而下的方式和自下而上的方式。在这里我们只介绍自下而上的方式，也就是HDBSCAN算法中用到的方式。而HDBSCAN是以可达距离作为领接边权重，对所有节点构建最小生成树，之后进行层次聚类。簇压缩我们将HDBSCAN的样本点进行层次聚类，构造成上面的生成树图之后，HDBSCAN会进行一个压缩树的过程。而HDBSCAN使用了一个簇稳定性的概念。定义s为簇稳定性，其计算方式如下：
89510编辑于 2024-06-21
来自专栏DeepHub IMBA
文本聚类效果差？5种主流算法性能测试帮你找到最佳方案
3、HDBSCAN聚类算法 HDBSCAN（层次DBSCAN）是DBSCAN的扩展版本，通过分层改变密度阈值解决了DBSCAN在eps参数设置上的局限性。 HDBSCAN适用于聚类具有不同密度分布的场景，但在数据集规模极大时由于计算成本高昂而不推荐使用。 importhdbscan # HDBSCAN聚类执行 # min_cluster_size参数类似于DBSCAN的min_samples clusterer=hdbscan.HDBSCAN(min_cluster_size alpha=0.6, color=colors(label) ) plt.legend() plt.title("HDBSCAN 在聚类数量未知的情况下，基于密度的方法（如DBSCAN和HDBSCAN）以及凝聚型层次聚类是较好的替代方案。算法选择应当结合具体的应用需求、数据特征和计算资源约束进行综合考虑。
57410编辑于 2025-08-20
AI智能体编码 skeptic 的 Rust 性能优化实战
这套流程被应用于多个算法（UMAP、HDBSCAN、GBDT等），并在每个步骤中通过链式调用不同模型（如先用Codex优化速度，再用Opus在保证准确性的前提下进一步提升速度）获得了惊人的结果。 HDBSCAN: 比Rust的 hdbscan crate 快 23-100倍，比Python的 hdbscan 快 3-10倍。
26210编辑于 2026-03-13
来自专栏机器学习与统计学
如何正确使用「K均值聚类」？
在作者的数据集上，当数据量超过一定程度时仅K均值和HDBSCAN可用。作者还做了下图以供参考对比。在他的实验中大部分算法如果超过了10万条数据后等待时长就变得很高，可能会需要连夜运行。当数据量过大时，可以试试HDBSCAN。仅当数据量巨大，且无法降维或者降低数量时，再尝试使用K均值。
2K30发布于 2019-04-10
来自专栏机器学习AI算法工程
python机器学习入门资料梳理
scikit-learn 3.2 Cluster-聚类算法 <a href="http://nbviewer.jupyter.org/github/lmcinnes/<em>hdbscan</em>/blob/master
97150发布于 2018-03-13
来自专栏JetpropelledSnake
机器学习笔记之机器学习中常见的9种距离度量方法
这些度量，如欧几里得距离或者余弦相似性，经常在 k-NN、 UMAP、HDBSCAN 等算法中使用。了解距离度量这个领域可能比你想的更重要，以 k-NN 为例，它常被用于监督学习中。如果在低维数据上使用欧式距离，则如 k-NN 和 HDBSCAN 之类的方法可达到开箱即用的效果。 0x02 余弦相似度（Cosine Similarity） ?
2.4K10发布于 2021-03-03
来自专栏数据分析1480
【4步走起】如何用聚类算法分析用户？
在作者的数据集上，当数据量超过一定程度时仅K均值和HDBSCAN可用。我的经验也是，当数据量超过5万条数据以后，K均值可能是比较实际的算法。但值得注意的是，K均值的效果往往不是非常好。当数据量过大时，可以试试HDBSCAN。仅当数据量巨大，且无法降维或者降低数量时，再尝试使用K均值。
87230发布于 2019-08-06
来自专栏AI大模型
高效AI故障诊断实践：个人运维能力跃迁指南
log_parser(raw_log): embedding = SentenceTransformer('all-MiniLM-L6-v2').encode(raw_log) cluster = HDBSCAN
73610编辑于 2025-08-21
来自专栏技术人生黄勇
jcode 深度解析：纯 Rust 打造，它凭什么号称「最强 Coding Agent」？
<memory_id>.vec # 每个记忆的嵌入向量 ├── clusters/ │ └── cluster_metadata.json # HDBSCAN edge_weight × (0.7)^depth Step 3: 侧车验证 → GPT-5.3 Codex Spark 轻量验证关联性 Step 4: 去重排序返回 top-10 后台自动维护机制： HDBSCAN
90610编辑于 2026-05-07
来自专栏DeepHub IMBA
9个数据科学中常见距离度量总结以及优缺点概述
这些度量，如欧几里得距离或余弦相似度，经常可以在k-NN、UMAP、HDBSCAN等算法中找到。理解距离测量域比你可能意识到的更重要。以k-NN为例，这是一种经常用于监督学习的技术。如果在低维数据上使用欧几里得距离，则kNN和HDBSCAN之类的方法将显示出出色的结果。尽管已开发出许多其他措施来解决欧几里得距离的缺点，但出于充分的原因，它仍然是最常用的距离之一。
2.2K10发布于 2021-02-12
来自专栏作图丫
simpleEnrichment--对GO富集分析结果进一步处理！
. ## Cluster 500 terms by 'hdbscan'... 13 clusters, used 0.1711211 secs. ## Cluster 500 terms by 'fast_greedy
3K42编辑于 2022-03-29
来自专栏AI算法与图像处理
一图看遍9种距离度量，图文并茂，详述应用场景！
这些度量，如欧几里得距离或余弦相似度，经常可以在k-NN、UMAP、HDBSCAN等算法中找到。理解距离度量比你可能比你想象中更加重要。以k-NN为例，这是一种经常用于监督学习的技术。如果在低维数据上使用欧几里得距离，像kNN和HDBSCAN这样的方法会显示出很好的开箱即用结果。
4.3K11发布于 2021-03-13
来自专栏Datawhale专栏
常见距离度量方法优缺点对比！
这些度量方法，如欧氏距离或余弦相似度，经常可以在KNN、UMAP、HDBSCAN等算法中找到。理解距离测量领域比你可能意识到的更重要。以KNN为例，这是一种常用于监督式学习的技术。如果在低维数据上使用欧氏距离，kNN和HDBSCAN等方法就会显示出很好的效果。虽然已经开发了许多其他的测量方法来解释欧氏距离的缺点，但它仍然是最常用的距离测量方法之一，这是有充分理由的。
9.9K30发布于 2021-03-11
来自专栏人工智能之核心基础
人工智能之核心基础机器学习第十一章无监督学习总结
K-Means + PCA（Scikit-learn 两行代码搞定）进阶：理解 DBSCAN 原理、t-SNE 可视化技巧实战：在真实业务中应用（如用户分群报告）拓展：尝试现代方法（UMAP 降维、HDBSCAN
39610编辑于 2026-01-11
来自专栏知识学习
如何使用LibrePhotos打造你的智能家庭照片管理系统与远程同步
智能化管理：利用face_recognition库进行精准的人脸识别，并结合scikit-learn和hdbscan算法实现照片自动归类；借助im2txt和places365技术对图像内容及拍摄地点进行智能分析
1.1K10编辑于 2025-04-18
来自专栏DeepHub IMBA
混合密度网络（MDN）进行多元回归详解和代码示例
20easy/MDN%20regression/mdn_model.py 为了能够使用这个类，有 sklearn、tensorflow probability、Tensorflow < 2、umap 和 hdbscan 如果设置为 -1，它将使用高斯混合模型 (GMM) 和 X 和 y 上的 HDBSCAN 模型“自动”找到最佳混合数。 · dist：在混合中使用的分布类型。目前，有两种选择；“正常”或“拉普拉斯”。
2K20编辑于 2022-03-12
来自专栏Elastic Stack专栏
使用 Elasticsearch 和 Jina Embeddings 进行无监督文档聚类
1 2 索引了 8,495 篇文档到 docs-clustering-all 时间：57.5 秒聚类：密度探测的中心点分类传统聚类算法如 HDBSCAN 假设您可以将完整的为什么不用 KMeans 或 HDBSCAN？ KMeans 假设球形聚类并要求完整的 N×d 矩阵在内存中。对于适合内存的语料，HDBSCAN 是一个强有力的替代。
17010编辑于 2026-04-15

第 2 页第 3 页

点击加载更多

密度聚类DBSCAN、HDBSCAN

厉害了！Scikit-Learn 新版再次重磅升级

机器学习中的密度聚类算法：深入解析与应用

常用聚类算法综述

文本聚类效果差？5种主流算法性能测试帮你找到最佳方案

AI智能体编码 skeptic 的 Rust 性能优化实战

如何正确使用「K均值聚类」？

python机器学习入门资料梳理

机器学习笔记之机器学习中常见的9种距离度量方法

【4步走起】如何用聚类算法分析用户？

高效AI故障诊断实践：个人运维能力跃迁指南

jcode 深度解析：纯 Rust 打造，它凭什么号称「最强 Coding Agent」？

9个数据科学中常见距离度量总结以及优缺点概述

simpleEnrichment--对GO富集分析结果进一步处理！

一图看遍9种距离度量，图文并茂，详述应用场景！

常见距离度量方法优缺点对比！

人工智能之核心基础机器学习第十一章无监督学习总结

如何使用LibrePhotos打造你的智能家庭照片管理系统与远程同步

混合密度网络（MDN）进行多元回归详解和代码示例

使用 Elasticsearch 和 Jina Embeddings 进行无监督文档聚类

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

密度聚类DBSCAN、HDBSCAN

厉害了！Scikit-Learn 新版再次重磅升级

机器学习中的密度聚类算法：深入解析与应用

常用聚类算法综述

文本聚类效果差？5种主流算法性能测试帮你找到最佳方案

AI智能体编码 skeptic 的 Rust 性能优化实战

如何正确使用「K均值聚类」？

python机器学习入门资料梳理

机器学习笔记之机器学习中常见的9种距离度量方法

【4步走起】如何用聚类算法分析用户？

高效AI故障诊断实践：个人运维能力跃迁指南

jcode 深度解析：纯 Rust 打造，它凭什么号称「最强 Coding Agent」？

9个数据科学中常见距离度量总结以及优缺点概述

simpleEnrichment--对GO富集分析结果进一步处理！

一图看遍9种距离度量，图文并茂，详述应用场景！

常见距离度量方法优缺点对比！

人工智能之核心基础 机器学习 第十一章 无监督学习总结

如何使用LibrePhotos打造你的智能家庭照片管理系统与远程同步

混合密度网络（MDN）进行多元回归详解和代码示例

使用 Elasticsearch 和 Jina Embeddings 进行无监督文档聚类

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

人工智能之核心基础机器学习第十一章无监督学习总结