我是一个使用文本数据的新手。
我有一个大约300,000个唯一产品名称的数据框架,我正在尝试使用k均值将相似的名称聚在一起。我使用sklearn的tfidfvectorizer将名称矢量化,并将其转换为tf-idf矩阵。
在我把它转换成一个稀疏矩阵后,我用5-10个簇来拟合k均值,但我不知道我是否收敛了。
我怎么才能解决这个问题呢?
发布于 2016-08-07 00:43:43
根据the source的说法,属性n_iter_应该包含k均值迭代次数。如果为n_iter_ < max_iter,则算法在给定的容差内收敛。
如果您要完成的任务是确定最佳集群数量,则可以使用带有inertia_属性的elbow method。
https://stackoverflow.com/questions/38796898
复制相似问题