我试图用FPGrowth对交易数据进行MLlib的基本市场篮子分析。我已将交易编码为相同的格式:
transactions.take(3)
res632: Array[Array[String]] = Array(Array(7976503128), Array(68113132893, 1800000725, 3120027015, 4850030414, 2100061223, 5150055538, 60538871457), Array(68113174202))其中数组中的单个数字是我的产品id作为字符串(例如,68113132893、7976503128等)。
现在,当我运行FPGrowth模型时,它运行时没有任何错误:
val fpg = new FPGrowth()
.setMinSupport(0.5)
.setNumPartitions(10)
val modelBuild = fpg.run(transactions)
fpg: org.apache.spark.mllib.fpm.FPGrowth = org.apache.spark.mllib.fpm.FPGrowth@74a103be
modelBuild: org.apache.spark.mllib.fpm.FPGrowthModel[String] = org.apache.spark.mllib.fpm.FPGrowthModel@391b111a但当我试图获取频繁项集时,它显示的是空白数组
modelBuild.freqItemsets.collect().foreach { itemset =>
println(itemset.freq)
}
res660: Array[org.apache.spark.mllib.fpm.FPGrowth.FreqItemset[String]] = Array()找不到哪里出了问题。请帮帮我!
发布于 2016-09-23 12:15:44
将minSupport降低到0.00001,所有的集合都将被打印出来。来自星火的文件:
minSupport:对要识别为频繁的项目集的最低支持。例如,如果一个项出现在5个事务中的3个,那么它的支持值为3/5=0.6。
https://stackoverflow.com/questions/39608137
复制相似问题