首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于关联规则挖掘的情感分析

基于关联规则挖掘的情感分析
EN

Stack Overflow用户
提问于 2014-05-24 10:47:09
回答 2查看 950关注 0票数 0

我正试图想出一个算法,在同一个句子中为产品找到最常用的前三名形容词。我想使用关联规则挖掘(Apriori算法)。

为此,我计划使用twitter数据。我可以或多或少地把抽搐分解成句子,然后通过过滤,我可以找到产品名称和形容词。

例如,在过滤后,我有类似的数据;

迷你ipad,太棒了

ipad迷你,太可怕了

三星星系s2,最佳

..。等。

产品名称和形容词以前都有定义。因此,我有一套产品名称和一组形容词,我正在寻找。

我读过几篇关于情感分析和规则挖掘的论文,他们都说Apriori算法是使用的。但是他们没有说他们是如何使用它的,他们也没有给出细节。

代码语言:javascript
复制
Therefore how can I reduce my problem to association rule mining problem? 
What values should I  use for minsup and minconf? 
How can I modify Apriori algorithm to solve this problem?

我想的是;

我应该为每种产品分别找到经常使用的形容词。然后,通过排序,我可以得到前三个形容词。但我不知道这是否正确。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-05-25 15:33:44

为每个产品找出最常用的三个形容词是,而不是关联规则挖掘

为了让Apriori产生好的结果,您必须对长度为4及更长的项集感兴趣。先验修剪从长度3开始,在长度4开始产生主要收益。在长度2时,它主要是枚举所有对。如果你只对成对感兴趣(产品,形容词),那么先验做的工作比必要的多。

相反,使用计数。使用哈希表。如果您确实有大量的数据,请使用近似计数和重命中算法。(但最有可能的情况是,在提取这些数据对之后,您不会有大量的数据.)

如果您只需要解决这个简单得多的问题,就不必研究关联规则挖掘。

关联规则挖掘实际上只用于查找模式,例如

代码语言:javascript
复制
pasta, tomato, onion -> basil

还有更复杂的规则。当长度n-1 -> n时,当长度n> 2时,Apriori的贡献是减少候选数,当n>3时,效果更好。

票数 1
EN

Stack Overflow用户

发布于 2014-09-24 18:02:59

将问题降为关联规则挖掘(ARM)

创建一个包含所有主题和形容词的特征向量。如果提要包含主题,那么将它的1放在元组中。就像。让我们假设话题是三星和苹果。形容词又好又可怕。而且还含有三星的好。那么对应的元组是:

三星苹果好恐怖

1 0 1 0

对Apriori算法的修改

利用约束先验算法生成“主题”-“形容词”类型的关联规则.“主题”

如何设置MinSup和MinConf :阅读一篇题为"Minin k关联规则“的论文。用k=3实现这三个顶级形容词。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/23844077

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档