在下面的代码中,spark在计算以色列国防军和TF-以色列国防军向量时是否必须对数据进行洗牌?
val hashingTF = new HashingTF()
val tf: RDD[Vector] = hashingTF.transform(documents)
tf.cache()
val idf = new IDF().fit(tf)
val tfidf: RDD[Vector] = idf.transform(tf)发布于 2017-08-01 01:03:57
它不会洗牌:
transform方法都是使用RDD.map实现的。IDF.fit是用RDD.treeAggregate实现的。当fit值较低时,miDocFreq方法仍然相当昂贵。
https://stackoverflow.com/questions/45427207
复制相似问题