首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何正确使用approximate_predict()与HDBSCAN聚类器进行文本聚类?

如何正确使用approximate_predict()与HDBSCAN聚类器进行文本聚类?
EN

Data Science用户
提问于 2019-08-08 21:19:15
回答 1查看 1.3K关注 0票数 1

我使用基于这篇文章的HDBSCAN进行文本聚类,它描述了如何在R中实现这一点,我已经用这个图书馆用Python重新编写了这篇文章。该方法首先计算文档的TF-以色列国防军向量,然后计算所有向量对的距离矩阵,然后根据距离矩阵拟合HDBSCAN聚类器。

由于算法速度慢,而且我的整个集合也有点大,所以我已经用我的文档子集为集群做了更好的准备。我已经把它限制在5000个样品上。HDBSCAN发现的集群是可以接受的。我以后再微调他们。

现在,我想创建一个Python方法,它将接受一个新文档,而不是原始培训集的一部分,并返回新文档似乎属于的集群标签。

我通过尝试使用近似_预测()来完成这个任务。这就是我要问的地方。

我怀疑计算新文档集群标签的过程如下所示:

  1. 将新文档添加到我用于集群培训的5000份样本中
  2. 计算5001个样本的电导矩阵(矩阵将大于用于聚类拟合的矩阵)
  3. 取结果矩阵的最后一行(应该对应于我的新文本),并从结果向量中删除最后一个元素(它应该包含新文档到自身的距离,我们可以忽略它)。去掉最后一个元素就是使最后一个向量的维数与用来拟合聚类器的矩阵的维数相匹配。否则那群人会抱怨的。
  4. 使用approximate_predict()方法并传递步骤3中获得的向量以获得集群标签。

我的问题是:

  1. 我的方法正确吗?(看起来太复杂了,但我不知道它应该是什么样子)
  2. 当我开始将大量文档传递给这个方法时,它在生产中会表现良好吗?(在实际调用approximate_predict()之前所需的处理似乎很大)
  3. 如何以不同的方式进行呢?
  4. 最好不要使用approximate_predict()方法,而是使用HDBSCAN为我的5000个样本计算的集群标签,并使用它进行监督学习,以训练分类器,然后对新文档进行分类。

我期待着你们的回答,我将非常感激你们的回答。我对此完全陌生,我身边没有人来讨论这件事。

EN

回答 1

Data Science用户

发布于 2019-08-08 23:12:51

为什么要重新计算距离矩阵?

直接计算所有新点的1x5000矢量即可。您甚至可以分批完成此操作,然后一次将一行提供给预测器。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/57272

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档