为此,我使用了word2vec和KMeans集群。在word2Vec中,我在100维空间中收集了20k个单词/向量,现在我正在尝试将这个向量空间聚类。当我使用默认并行实现运行KMeans时,该算法工作了3个小时!但如果采用随机初始化策略,则需要8分钟的时间。我做错了什么?我有machine机器,有4个内核处理器和16 GB内存。= new KMeans() kmea
org.apache.mahout.clustering.iterator.ClusterIterator.iterateMR(ClusterIterator.java:182) at org.apache.mahout.clustering.kmeans.KMeansDriver.run(KMeansDriver.java
$.fastSquaredDistance(KMeans.scala:595) at org.apache.spark.mllib.clustering.KMeans$$anonfun$findClosest$1.apply$.findClosest(KMeans.scala:563)
at org.a