几天来,我一直在为我的考试做一些工作,我正在复习一些过去的试卷,但不幸的是,没有相应的答案。我已经回答了这个问题,我想知道是否有人能告诉我我是否正确。
我的问题是
(c)交易数据集T如下: t1:牛奶,鸡肉,啤酒 t2:鸡肉,奶酪 t3:奶酪,靴子 t4:奶酪,鸡肉,啤酒, t5:鸡肉,啤酒,衣服,奶酪,牛奶 t6:衣服,啤酒,牛奶 t7:啤酒,牛奶,衣服 假设最低支持为0.5 (minsup = 0.5)。 (i)查找所有经常项目集。
我就是这样想出来的:
项目:数额 牛奶:4 鸡:4 啤酒:5 奶酪:4 靴子:1 衣服:3
现在,由于minsup是0.5,您可以去掉靴子和衣服,并将剩余的赠品组合在一起:
{项目}:数额 {牛奶,鸡}:2 {牛奶,啤酒}:4 {牛奶,奶酪}:1 {鸡,啤酒}:3 {鸡,奶酪}:3 {啤酒,奶酪}:2
那麽,牛奶和啤酒是唯一最常见的一种,因为它是唯一的一种,上面的minsup?
发布于 2013-01-05 09:52:56
解决这个问题有两种方法:
假设您正在使用Apriori,则得到的答案是正确的。
算法很简单:
首先,计算频繁的1项集,并将项目集排除在最低支持范围内。
然后通过组合以前迭代中的频繁项来计数频繁的2项集,并排除低于支持阈值的项集。
该算法可以继续进行,直到没有一个项目集大于阈值。
在给你的问题中,你只能得到超过阈值的1组2项,所以你不能进一步移动。
在维基百科这里上有一个解决了的进一步步骤的例子。
您可以参考韩和坎贝尔的“数据挖掘概念和技术”来获得更多的示例。
发布于 2013-02-06 10:34:56
我同意你应该采用Apriori算法。
Apriori算法基于这样的思想:对于一对频繁的项目,每个单独的项目也应该是频繁的。如果汉堡和番茄酱搭配频繁,那么汉堡本身也必须经常出现在篮子里。番茄酱也是如此。
因此,对于该算法,建立了一个“阈值X”来定义什么是和它不是频繁的。如果某项出现次数超过X次,则视为频繁出现。
算法的第一步是对每个篮子中的每个项目进行传递,并计算它们的频率(计数出现的次数)。这可以用N大小的散列来完成,其中散列的位置Y指的是Y的频率。
如果y项的频率大于X,则称为频繁项。
在算法的第二步,我们再次迭代项目,计算篮子中对的频率。问题是,我们只计算个别频繁的项目。因此,如果项目y和项目z在自身上是频繁的,那么我们就计算这对的频率。这种情况大大减少了要计算的对和占用的内存量。
一旦计算出这一点,超过阈值的频率就被称为频繁项集。
(http://girlincomputerscience.blogspot.com.br/2013/01/frequent-itemset-problem-for-mapreduce.html)
发布于 2013-01-04 21:38:46
首先,您必须首先理解,数据挖掘(有时称为数据或知识发现)是从不同角度分析数据并将其归纳为有用信息的过程--这些信息可以用来增加收入、降低成本,或者两者兼而有之。数据挖掘软件是分析数据的多种分析工具之一。它允许用户从许多不同的维度或角度分析数据,对其进行分类,并总结所识别的关系。从技术上讲,数据挖掘是在大型关系数据库中的数十个字段之间寻找关联或模式的过程。
现在,存储在公司数据库中的原始数据的数量正在激增。从数万亿美元的销售点交易和信用卡购买到星系的逐像素图像,数据库现在都是以千兆字节和兆字节来衡量的。(1兆字节=1万亿字节)1兆字节相当于约200万本书!)例如,沃尔玛每天向一个拥有483个处理器、运行中央数据库的A&T大规模并行系统上传2000万笔销售点交易。然而,原始数据本身并没有提供多少信息。在当今竞争激烈的商业环境中,企业需要迅速将这些兆字节的原始数据转化为对客户和市场的重要洞察,以指导他们的营销、投资和管理策略。
现在您必须了解关联规则挖掘是数据挖掘中的一个重要模型。它的挖掘算法在满足用户指定的最小支持(minsup)和最小置信度(minconf)约束的数据中发现所有项关联(或规则)。Minsup控制规则必须覆盖的数据用例的最小数量。Minconf控制规则的预测强度。由于整个数据库只使用一个minsup,因此该模型隐含地假定数据中的所有项都具有相同的性质和/或在数据中具有相似的频率。然而,在实际应用中很少出现这种情况。在许多应用程序中,一些项经常出现在数据中,而另一些项则很少出现。如果minsup设定得太高,就找不到那些涉及稀有物品的规则。为了找到涉及频繁和罕见项目的规则,minsup必须设置得非常低。这可能会导致组合爆炸,因为这些频繁的项目将以各种可能的方式相互关联。这种困境被称为罕见的项目问题。本文提出了一种解决这一问题的新技术。该技术允许用户指定多个最小支持,以反映项目的性质及其在数据库中的变化频率。在规则挖掘中,不同的规则可能需要满足不同的最小支持,这取决于规则中的项目。
给定一组事务T(数据库),挖掘关联规则的问题是发现所有支持和信任大于用户指定的最小支持(称为minsup)和最小置信度(称为minconf)的关联规则。
我希望,一旦你了解了数据挖掘的基本知识,这个问题的答案就会变得显而易见。
https://stackoverflow.com/questions/14164853
复制相似问题