首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据帧上的FPGrowth?

数据帧上的FPGrowth?
EN

Stack Overflow用户
提问于 2016-11-23 23:54:53
回答 2查看 467关注 0票数 1

假设我有一个这个结构的数据帧:

代码语言:javascript
复制
time| asset | parameter  
----|-------|----------
T1  |  A1   | P1
T1  |  A1   | P2
T1  |  A1   | P3
T1  |  A2   | P1
T1  |  A2   | P2
T1  |  A2   | P3
T2  |  A1   | P1
....

诸若此类

我想在这个数据帧上使用FPGrowth接口(作为spark.mllib的一部分),其中与同一时间戳对应的所有参数都被视为一个事务。我该怎么做呢?

documentation中给出的示例只涉及正在读取的文件,每行对应于一个不同的事务。

我是Spark的新手,所以欢迎任何形式的帮助!(使用Scala的Spark版本1.6.2 )

EN

回答 2

Stack Overflow用户

发布于 2016-11-24 06:23:32

透视您的数据,以便每个事务有一行。

然后运行FPgrowth。

票数 0
EN

Stack Overflow用户

发布于 2018-04-03 18:30:04

将列名附加到每个行值。您的Dataframe将如下所示:

代码语言:javascript
复制
+----------+-------------+-------------+
| time     | asset       | parameter   |
+----------+-------------+-------------+
| time:T1  |  asset:A1   | parameter:P1|  
| time:T1  |  asset:A1   | parameter:P2|  
| time:T1  |  asset:A1   | parameter:P3|
+----------+-------------+-------------+

这使得值具有唯一性。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40768888

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档