我正在寻找一种方法来开发一个ML数据集,它可以比较积极和消极的词汇。例如,"is valid“vs "not valid”或"can be used“vs "can't be used”或"not on Thursdays“vs "on Thursdays”将是正面vs负面。它可以通过判断副词是肯定的还是否定的来简化。我想知道是否有任何可用的数据集用于此解决方案或任何现有的解决方案。
发布于 2014-11-24 06:20:35
你可以使用一些情感词典。
自动情感分析是文本分析技术在文本数据中识别主观观点的应用。它通常涉及到文本的分类,如“积极”,“消极”,在某些情况下是“中性”[Source]
WordStat Sentiment Dictionary 1.2
Loughran and McDonald Financial Sentiment Dictionary
发布于 2014-11-24 13:56:57
创建数据集
搜索对某一观点有争论的文章。在那里,你会得到大多数肯定和否定的句子。开始时,选择较小的段落。手动检查算法的效率。
解决方案
从非常基本的方法开始。比如搜索关键字,"not“。然后输入组合的"can't“”miss“等,然后检查你是否遗漏了什么。
现在,您可以使用更复杂的方法。就像这句话:“我对设备采取了预防措施,它不会伤害我。”它给人一种积极的感觉。你应该寻找的是“不会伤害”。你看,won't是一个否定的词,而“伤害”也是一个否定的词。将两者结合起来会产生积极的效果。
https://stackoverflow.com/questions/27094699
复制相似问题