我使用基于这篇文章的HDBSCAN进行文本聚类,它描述了如何在R中实现这一点,我已经用这个图书馆用Python重新编写了这篇文章。该方法首先计算文档的TF-以色列国防军向量,然后计算所有向量对的距离矩阵,然后根据距离矩阵拟合HDBSCAN聚类器。
由于算法速度慢,而且我的整个集合也有点大,所以我已经用我的文档子集为集群做了更好的准备。我已经把它限制在5000个样品上。HDBSCAN发现的集群是可以接受的。我以后再微调他们。
现在,我想创建一个Python方法,它将接受一个新文档,而不是原始培训集的一部分,并返回新文档似乎属于的集群标签。
我通过尝试使用近似_预测()来完成这个任务。这就是我要问的地方。
我怀疑计算新文档集群标签的过程如下所示:
我期待着你们的回答,我将非常感激你们的回答。我对此完全陌生,我身边没有人来讨论这件事。
发布于 2019-08-08 23:12:51
为什么要重新计算距离矩阵?
直接计算所有新点的1x5000矢量即可。您甚至可以分批完成此操作,然后一次将一行提供给预测器。
https://datascience.stackexchange.com/questions/57272
复制相似问题