我在gensim,find text,sklearn上检查了无监督聚类,但没有找到任何文档,在这些文档中,我可以使用无监督学习对文本数据进行聚类,而不是提到要识别的聚类数量
例如,在sklearn KMneans集群中
km = KMeans(n_clusters=true_k, init='k-means++', max_iter=100)我必须提供n_clusters。
在我的例子中,我有文本,它应该自动识别其中的聚类数量,并对文本进行聚类。任何参考文章或链接非常感谢。
发布于 2018-09-20 23:07:37
DBSCAN是一种基于密度的聚类方法,我们不必事先指定聚类的数量。
sklearn实现:http://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html
这里有一个很好的教程,可以直观地理解DBSCAN:http://mccormickml.com/2016/11/08/dbscan-clustering/
我从上面的教程中摘录了以下内容,这可能对你有用。
k-means需要指定聚类的数量,‘k’。DBSCAN不需要,但需要指定两个参数,这两个参数会影响两个邻近的点是否应该链接到同一群集中的决策。
这两个参数是要解释的距离阈值ε(ε)和“MinPts”(最小点数)。
还有其他方法(按照注释中给出的链接),但是,DBSCAN是一个流行的选择。
https://stackoverflow.com/questions/52425323
复制相似问题