我正在尝试使用Sparklyr构建一个关联规则算法,并且一直在遵循这个blog,这一点已经得到了很好的解释。
但是,在它们适合FPGrowth算法之后,有一节作者从返回的"FPGrowthModel object“中提取规则,但我无法重现以提取规则。
我正在努力的部分是这段代码:
rules = FPGmodel %>% invoke("associationRules")谁能解释一下FPGmodel是从哪里来的?
我的代码如下所示,并且我没有看到可以从中提取规则的FPGmodel对象,任何帮助都将不胜感激。
# CACHE HIVE TABLE INTO SPARK
tbl_cache(sc, 'claims', force = TRUE)
med_tbl <- tbl(sc, 'claims')
# SELECT VARIABLES OF INTEREST
med_tbl <- med_tbl %>% select(proc_desc,alt_claim_id)
# REMOVE DUPLICATED ROWS
med_tbl <- dplyr::distinct(med_tbl)
med_tbl <- med_tbl %>% group_by(alt_claim_id)
# AGGREGATING CLAIMS BY CLAIM ID
med_agg <- med_tbl %>%
group_by(alt_claim_id) %>%
summarise(procedures = collect_list(proc_desc))
# CREATE UNIQUE STRING TO IDENTIFY THE MACHINE LEARNING ESTIMATOR
uid = sparklyr:::random_string("fpgrowth_")
# INVOKE THE FPGrowth JAVA CLASS
jobj = invoke_new(sc, "org.apache.spark.ml.fpm.FPGrowth", uid)
jobj %>%
invoke("setItemsCol", "procedures") %>%
invoke("setMinConfidence", 0.03) %>%
invoke("setMinSupport", 0.01) %>%
invoke("fit", spark_dataframe(med_agg))发布于 2019-12-28 21:34:27
你链接的博客帖子已经过时将近两年了。因为2b0994c为o.a.s.ml.fpm.FPGrowth提供了本机包装器
df <- copy_to(sc, tibble(items=c("a b c", "a b", "c f g", "b c"))) %>%
mutate(items = split(items, "\\\\s+")
fp_growth_model <- ml_fpgrowth(df)antecedent consequent confidence lift
<list> <list> <dbl> <dbl>
1 <list [1]> <list [1]> 1 1.33https://stackoverflow.com/questions/59507461
复制相似问题