我有一个很大的(雪花)事务数据库,我想用关联规则学习来探索它们。
将数据加载到内存中并使用例如R的arules包不是一个选项,因为内存需求。
是否有任何(R,python)包/ sql代码在数据库本身上计算关联规则(通过先验或FP-growth算法)?
我知道SQL Server (https://www.sqlshack.com/the-association-rule-mining-in-sql-server/)也有类似的东西
发布于 2020-04-17 23:34:16
在Snowflake中没有原生的东西。
你可以试着去适应,比如这个家伙的sql实现:http://sqldatamine.blogspot.com/2014/02/associated-items-using-apriori-algorithm.html?_sm_au_=iVVR1RP6530TJ5SMqCc84K3L6t8Jp
Apriori是一个“简单”的算法,所以它是可能的,但我建议首先从数据中随机抽取一个样本(例如1M个事务),然后使用您选择的工具(r,python,knime,...)运行apriori。如果你看到你得到了有趣的结果,你可能会有动力去做这件事。
https://stackoverflow.com/questions/61274882
复制相似问题