首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >与scala的FPgrowth计算关联

与scala的FPgrowth计算关联
EN

Stack Overflow用户
提问于 2016-10-18 11:57:53
回答 2查看 3.8K关注 0票数 4

使用

http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html

Python代码:

代码语言:javascript
复制
from pyspark.mllib.fpm import FPGrowth
model = FPGrowth.train(dataframe,0.01,10)

Scala:

代码语言:javascript
复制
import org.apache.spark.mllib.fpm.FPGrowth
import org.apache.spark.rdd.RDD

val data = sc.textFile("data/mllib/sample_fpgrowth.txt")

val transactions: RDD[Array[String]] = data.map(s => s.trim.split(' '))

val fpg = new FPGrowth()
  .setMinSupport(0.2)
  .setNumPartitions(10)
val model = fpg.run(transactions)

model.freqItemsets.collect().foreach { itemset =>
  println(itemset.items.mkString("[", ",", "]") + ", " + itemset.freq)
}

val minConfidence = 0.8
model.generateAssociationRules(minConfidence).collect().foreach { rule =>
  println(
    rule.antecedent.mkString("[", ",", "]")
      + " => " + rule.consequent .mkString("[", ",", "]")
      + ", " + rule.confidence)
}

从代码这里中可以看出,scala部件没有最小的可信度。

代码语言:javascript
复制
def trainFPGrowthModel(
      data: JavaRDD[java.lang.Iterable[Any]],
      minSupport: Double,
      numPartitions: Int): FPGrowthModel[Any] = {
    val fpg = new FPGrowth()
      .setMinSupport(minSupport)
      .setNumPartitions(numPartitions)

    val model = fpg.run(data.rdd.map(_.asScala.toArray))
    new FPGrowthModelWrapper(model)
  }

在火花放电的情况下,如何添加minConfidence生成关联规则?我们可以看到scala有这个示例,但是python没有这个示例。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-10-20 17:37:24

火花>= 2.2

有一个DataFrameml API,它提供AssociationRules

代码语言:javascript
复制
from pyspark.ml.fpm import FPGrowth

data = ...

fpm = FPGrowth(minSupport=0.3, minConfidence=0.9).fit(data)
associationRules = fpm.associationRules.

火花< 2.2

目前,PySpark不支持提取关联规则(基于DataFrameFPGrowth API与火花-1450支持是一项正在进行的工作),但我们可以轻松地解决这个问题。

首先,您必须安装SBT (只需转到下载页面),并按照操作系统的说明操作。

接下来,您必须创建一个只包含两个文件的简单Scala项目:

代码语言:javascript
复制
.
├── AssociationRulesExtractor.scala
└── build.sbt

您可以稍后调整它以遵循已建立的目录结构

接下来,向build.sbt添加以下内容(调整Scala版本和Spark版本以匹配您使用的版本):

代码语言:javascript
复制
name := "fpm"

version := "1.0"

scalaVersion := "2.10.6"

val sparkVersion = "1.6.2"

libraryDependencies ++= Seq(
  "org.apache.spark" %% "spark-core" % sparkVersion,
  "org.apache.spark" %% "spark-mllib" % sparkVersion
)

并跟随AssociationRulesExtractor.scala

代码语言:javascript
复制
package com.example.fpm

import org.apache.spark.mllib.fpm.AssociationRules.Rule
import org.apache.spark.rdd.RDD

object AssociationRulesExtractor {
  def apply(rdd: RDD[Rule[String]]) = {
    rdd.map(rule => Array(
      rule.confidence, rule.javaAntecedent, rule.javaConsequent
    ))
  }
}

打开您选择的终端模拟器,转到项目的根目录并调用:

代码语言:javascript
复制
sbt package

它将在目标目录中生成一个jar文件。例如,在Scala2.10中,它将是:

代码语言:javascript
复制
target/scala-2.10/fpm_2.10-1.0.jar

启动PySpark shell或使用spark-submit并将路径传递到生成的jar文件和--driver-class-path

代码语言:javascript
复制
bin/pyspark --driver-class-path /path/to/fpm_2.10-1.0.jar

在非本地模式下:

代码语言:javascript
复制
bin/pyspark --driver-class-path /path/to/fpm_2.10-1.0.jar --jars /path/to/fpm_2.10-1.0.jar

在集群模式中,所有节点上都应该存在jar。

添加一些方便包装:

代码语言:javascript
复制
from pyspark import SparkContext
from pyspark.mllib.fpm import FPGrowthModel
from pyspark.mllib.common import _java2py
from collections import namedtuple


rule = namedtuple("Rule", ["confidence", "antecedent", "consequent"])

def generateAssociationRules(model, minConfidence):
    # Get active context
    sc = SparkContext.getOrCreate()

    # Retrieve extractor object
    extractor = sc._gateway.jvm.com.example.fpm.AssociationRulesExtractor

    # Compute rules
    java_rules = model._java_model.generateAssociationRules(minConfidence)

    # Convert rules to Python RDD
    return _java2py(sc, extractor.apply(java_rules)).map(lambda x:rule(*x))

最后,您可以使用这些帮助程序作为一个函数:

代码语言:javascript
复制
generateAssociationRules(model, 0.9)

或作为一种方法:

代码语言:javascript
复制
FPGrowthModel.generateAssociationRules = generateAssociationRules
model.generateAssociationRules(0.9)

这个解决方案依赖于内部的PySpark方法,因此不能保证它在版本之间是可移植的。

票数 5
EN

Stack Overflow用户

发布于 2017-07-20 13:41:22

您可以使用Spark <2.2在PySpark中生成和获取关联规则,只需一点py4j代码:

代码语言:javascript
复制
# model was produced by FPGrowth.train() method
rules = sorted(model._java_model.generateAssociationRules(0.9).collect(), 
    key=lambda x: x.confidence(), reverse=True)
for rule in rules[:200]:
    # rule variable has confidence(), consequent() and antecedent() 
    # methods for individual value access.
    print rule
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40107643

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档