文章/答案/技术大牛

发布

社区首页 >问答首页 >使用Sparklyr的FPGrowth/关联规则

问使用Sparklyr的FPGrowth/关联规则
EN

Stack Overflow用户

提问于 2019-12-28 09:29:38

回答 1查看 152关注 0票数 0

我正在尝试使用Sparklyr构建一个关联规则算法，并且一直在遵循这个blog，这一点已经得到了很好的解释。

但是，在它们适合FPGrowth算法之后，有一节作者从返回的"FPGrowthModel object“中提取规则，但我无法重现以提取规则。

我正在努力的部分是这段代码：

rules = FPGmodel %>% invoke("associationRules")

谁能解释一下FPGmodel是从哪里来的？

我的代码如下所示，并且我没有看到可以从中提取规则的FPGmodel对象，任何帮助都将不胜感激。

# CACHE HIVE TABLE INTO SPARK
tbl_cache(sc, 'claims', force = TRUE)
med_tbl <- tbl(sc, 'claims')

# SELECT VARIABLES OF INTEREST
med_tbl <- med_tbl %>% select(proc_desc,alt_claim_id)

# REMOVE DUPLICATED ROWS
med_tbl <- dplyr::distinct(med_tbl)

med_tbl <- med_tbl %>% group_by(alt_claim_id)

# AGGREGATING CLAIMS BY CLAIM ID
med_agg <- med_tbl %>% 
  group_by(alt_claim_id) %>% 
  summarise(procedures = collect_list(proc_desc))

# CREATE UNIQUE STRING TO IDENTIFY THE MACHINE LEARNING ESTIMATOR
uid = sparklyr:::random_string("fpgrowth_")

# INVOKE THE FPGrowth JAVA CLASS 
jobj = invoke_new(sc, "org.apache.spark.ml.fpm.FPGrowth", uid) 


jobj %>% 
  invoke("setItemsCol", "procedures") %>% 
  invoke("setMinConfidence", 0.03) %>% 
  invoke("setMinSupport", 0.01) %>% 
  invoke("fit", spark_dataframe(med_agg))

apache-spark

machine-learning

sparklyr

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-12-28 21:34:27

你链接的博客帖子已经过时将近两年了。因为2b0994c为o.a.s.ml.fpm.FPGrowth提供了本机包装器

df <- copy_to(sc, tibble(items=c("a b c", "a b", "c f g", "b c"))) %>%
  mutate(items = split(items, "\\\\s+")

fp_growth_model <- ml_fpgrowth(df)

antecedent consequent confidence  lift
  <list>     <list>          <dbl> <dbl>
1 <list [1]> <list [1]>          1  1.33

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59507461

复制

相似问题

问使用Sparklyr的FPGrowth/关联规则
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Sparklyr的FPGrowth/关联规则EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Sparklyr的FPGrowth/关联规则
EN