文章/答案/技术大牛

发布

问熊猫数据关联规则
EN

Stack Overflow用户

提问于 2015-11-11 14:32:49

回答 2查看 5.4K关注 0票数 4

我有这样的数据

df = pd.DataFrame(data=[980,169,104,74], columns=['Count'], index=['X,Y,Z', 'X,Z','X','Y,Z'])

           Count
X, Y, Z      980
X,Z          169
X            104
Y,Z           74

我希望能够从中提取关联规则。我已经看到Apriori算法是参考。并发现用于数据挖掘的Orange库在这一领域是众所周知的.

但问题是，为了使用AssociationRulesInducer，我首先需要创建一个包含所有事务的文件。由于我的数据集非常庞大(20列和500万行)，所以将所有这些数据写入一个文件并使用Orange再次读取它的代价太大了。

你知道我如何利用我目前的数据结构来找到关联规则吗？

python

pandas

machine-learning

orange

回答 2

Stack Overflow用户

发布于 2015-11-12 13:06:08

新的Orange3 3-协理橙色数据挖掘套件加载项似乎包括小部件和挖掘频繁项集的代码 (以及来自它们的关联规则)，甚至包括稀疏数组或列表列表，它们可能对您有用。

如果有5米行，那就太棒了。:)

票数 2

Stack Overflow用户

发布于 2021-08-25 10:36:36

我知道这是一个老问题，但对于任何试图使用熊猫数据作为关联规则和频繁项目集(例如Apriori)的人来说：

看一看这的博客条目，解释如何使用库mlxtend实现这一点。

关于这个伟大的博客条目，我唯一的建议是，如果您正在处理大型数据集，您可能会遇到热编码数据格式的OOM错误。我建议您使用SparseDtypes：df = df.astype(pd.SparseDtype(int, fill_value=0))

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/33652744

复制

相似问题

问熊猫数据关联规则
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问熊猫数据关联规则EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问熊猫数据关联规则
EN