我有这样的数据
df = pd.DataFrame(data=[980,169,104,74], columns=['Count'], index=['X,Y,Z', 'X,Z','X','Y,Z'])
Count
X, Y, Z 980
X,Z 169
X 104
Y,Z 74我希望能够从中提取关联规则。我已经看到Apriori算法是参考。并发现用于数据挖掘的Orange库在这一领域是众所周知的.
但问题是,为了使用AssociationRulesInducer,我首先需要创建一个包含所有事务的文件。由于我的数据集非常庞大(20列和500万行),所以将所有这些数据写入一个文件并使用Orange再次读取它的代价太大了。
你知道我如何利用我目前的数据结构来找到关联规则吗?
发布于 2015-11-12 13:06:08
新的Orange3 3-协理 橙色数据挖掘套件加载项似乎包括小部件和挖掘频繁项集的代码 (以及来自它们的关联规则),甚至包括稀疏数组或列表列表,它们可能对您有用。
如果有5米行,那就太棒了。:)
发布于 2021-08-25 10:36:36
我知道这是一个老问题,但对于任何试图使用熊猫数据作为关联规则和频繁项目集(例如Apriori)的人来说:
看一看这的博客条目,解释如何使用库mlxtend实现这一点。
关于这个伟大的博客条目,我唯一的建议是,如果您正在处理大型数据集,您可能会遇到热编码数据格式的OOM错误。我建议您使用SparseDtypes:df = df.astype(pd.SparseDtype(int, fill_value=0))
https://stackoverflow.com/questions/33652744
复制相似问题