我希望做多个文本属性的文本情感分析。我遵循了这个伟大的初学者视频教程,它可以用于单个文本属性及其类正或负。我想把这个想法同时扩展到多个属性。
为了说明清楚,下面是我试图做的事情的一个例子:
从顾客那里收集有关零售商店的属性:
我希望基于类属性(4)的所有属性(1-3)进行分析。
如果我尝试使用过滤器>无监督>属性> StringToWordVector分别对这些属性,然后观察结果有较低的正确分类%。
这是进行文本情感分析的正确方法吗?
发布于 2014-01-03 09:13:19
您正在接近多面情感分析,因为您正在保存有关零售商店不同方面(属性)的信息。要获得对存储的总体分析,将所有属性混合在分析中并不是错误的;只需将StringToWordVector应用于所有字符串属性就可以了。
一方面,您可能会提高准确性,因为您将获得更好的统计数据和更多的特性时,只使用其中一个属性。另一方面,您可能会降低感知能力,因为一次评审可能会说对Store体验有积极的看法,但总体上是负面的,因此混合属性可能会在模型中产生一些噪音--然而,这是不太可能的,因为如果只从Store Experience属性中学习,这种评审将是一个不好的例子。
如果您遵循本教程,您将看到在StringToWordVector过滤器中有很多选项,您也可以添加AttributeSelection。我建议测试每个属性,并结合所有属性,在StringToWordVector过滤器中使用二进制/TF/TF的权重,使用NGramTokenizer (用于识别正负多个单词--例如“非常好”),使用AttributeSelection和Ranker和InfoGainAttributeEval,当然,测试尽可能多的学习算法。
您还有一个额外的教程这里。
https://stackoverflow.com/questions/20894165
复制相似问题