我正试图想出一个算法,在同一个句子中为产品找到最常用的前三名形容词。我想使用关联规则挖掘(Apriori算法)。
为此,我计划使用twitter数据。我可以或多或少地把抽搐分解成句子,然后通过过滤,我可以找到产品名称和形容词。
例如,在过滤后,我有类似的数据;
迷你ipad,太棒了
ipad迷你,太可怕了
三星星系s2,最佳
..。等。
产品名称和形容词以前都有定义。因此,我有一套产品名称和一组形容词,我正在寻找。
我读过几篇关于情感分析和规则挖掘的论文,他们都说Apriori算法是使用的。但是他们没有说他们是如何使用它的,他们也没有给出细节。
Therefore how can I reduce my problem to association rule mining problem?
What values should I use for minsup and minconf?
How can I modify Apriori algorithm to solve this problem?我想的是;
我应该为每种产品分别找到经常使用的形容词。然后,通过排序,我可以得到前三个形容词。但我不知道这是否正确。
发布于 2014-05-25 15:33:44
为每个产品找出最常用的三个形容词是,而不是关联规则挖掘。
为了让Apriori产生好的结果,您必须对长度为4及更长的项集感兴趣。先验修剪从长度3开始,在长度4开始产生主要收益。在长度2时,它主要是枚举所有对。如果你只对成对感兴趣(产品,形容词),那么先验做的工作比必要的多。
相反,使用计数。使用哈希表。如果您确实有大量的数据,请使用近似计数和重命中算法。(但最有可能的情况是,在提取这些数据对之后,您不会有大量的数据.)
如果您只需要解决这个简单得多的问题,就不必研究关联规则挖掘。
关联规则挖掘实际上只用于查找模式,例如
pasta, tomato, onion -> basil还有更复杂的规则。当长度n-1 -> n时,当长度n> 2时,Apriori的贡献是减少候选数,当n>3时,效果更好。
发布于 2014-09-24 18:02:59
将问题降为关联规则挖掘(ARM)
创建一个包含所有主题和形容词的特征向量。如果提要包含主题,那么将它的1放在元组中。就像。让我们假设话题是三星和苹果。形容词又好又可怕。而且还含有三星的好。那么对应的元组是:
三星苹果好恐怖
1 0 1 0
对Apriori算法的修改
利用约束先验算法生成“主题”-“形容词”类型的关联规则.“主题”
如何设置MinSup和MinConf :阅读一篇题为"Minin k关联规则“的论文。用k=3实现这三个顶级形容词。
https://stackoverflow.com/questions/23844077
复制相似问题