首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >熊猫数据关联规则

熊猫数据关联规则
EN

Stack Overflow用户
提问于 2015-11-11 14:32:49
回答 2查看 5.4K关注 0票数 4

我有这样的数据

代码语言:javascript
复制
df = pd.DataFrame(data=[980,169,104,74], columns=['Count'], index=['X,Y,Z', 'X,Z','X','Y,Z'])

           Count
X, Y, Z      980
X,Z          169
X            104
Y,Z           74

我希望能够从中提取关联规则。我已经看到Apriori算法是参考。并发现用于数据挖掘的Orange库在这一领域是众所周知的.

但问题是,为了使用AssociationRulesInducer,我首先需要创建一个包含所有事务的文件。由于我的数据集非常庞大(20列和500万行),所以将所有这些数据写入一个文件并使用Orange再次读取它的代价太大了。

你知道我如何利用我目前的数据结构来找到关联规则吗?

EN

回答 2

Stack Overflow用户

发布于 2015-11-12 13:06:08

新的Orange3 3-协理 橙色数据挖掘套件加载项似乎包括小部件和挖掘频繁项集的代码 (以及来自它们的关联规则),甚至包括稀疏数组或列表列表,它们可能对您有用。

如果有5米行,那就太棒了。:)

票数 2
EN

Stack Overflow用户

发布于 2021-08-25 10:36:36

我知道这是一个老问题,但对于任何试图使用熊猫数据作为关联规则和频繁项目集(例如Apriori)的人来说:

看一看的博客条目,解释如何使用库mlxtend实现这一点。

关于这个伟大的博客条目,我唯一的建议是,如果您正在处理大型数据集,您可能会遇到热编码数据格式的OOM错误。我建议您使用SparseDtypes:df = df.astype(pd.SparseDtype(int, fill_value=0))

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33652744

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档