我对文本挖掘还很陌生,今天我正在挑战自己去做情感分析。但是我在做情感分析的时候遇到了一些问题。在我的语言中,一个词可以有一些不同的含义。像"setan“的意思是: 1)魔鬼2)咒骂的话。如何解决情感分析中的这种歧义?对于每个人的信息,我使用的算法是朴素贝叶斯分类器。对于工具,我使用RapidMiner。我需要你的帮助。任何建议都是很棒的。谢谢!
发布于 2018-05-15 14:25:16
在朴素贝叶斯分类器上训练你的数据将使模型为你试图分类的每个不同类别的每个单词分配一个概率。在你的例子中,由于它是情绪分析,如果你有积极和消极的两个类别,你将有setan为积极和消极的概率。
记住这一点,如果一个词有多种含义,可以解释积极和消极的情绪,我建议确保在数据中包括这两种情况,以便在训练模型时,相应的概率用于将新文本分类为积极或消极类别。
在你的例子中,setan的两个含义似乎都有负面的含义,这真的不应该是一个问题。像" the ","a“这样的词同时出现在积极和消极的情况下,著名的叫停用词应该被删除,因为它们并不真正计入分类。
在您的案例中,如果您试图使用它们的特定含义来训练模型,您可以参考这篇论文https://pdfs.semanticscholar.org/fc01/b42df3077a512620456d8a2714951eccbd67.pdf。
https://stackoverflow.com/questions/50341952
复制相似问题