我需要使用Stanford工具对有关特定主题的新闻文章进行情感分析。
这样的工具只允许基于句子的情感分析,而我想提取一个关于我的主题的整个文章的情感评估。
例如,如果我的主题是苹果,我想知道有关苹果的新闻文章的感情。
仅仅计算我文章中句子的平均数是不行的。例如,我可能会有一篇文章这样说:“苹果非常擅长这个和那个,而谷歌的产品正是因为这些原因而变得很糟糕”。这样一篇文章将使用句子的平均分数进行中立的分类,而实际上它是一篇关于苹果的非常正面的文章。
另一方面,过滤我的句子,只包括那些包含“苹果的A产品相当好,但是它缺乏以下关键特征”的文章。在这种情况下,如果我只使用包含Apple这个词的句子,那么第二句的效果就会消失。
有什么标准的方法来解决这类问题吗?斯坦福NLP是实现我目标的错误工具吗?
发布于 2015-02-12 20:19:16
更新:您可能需要查看http://blog.getprismatic.com/deeper-content-analysis-with-aspects/
这是一个非常活跃的研究领域,因此很难找到现成的工具来做到这一点(至少斯坦福大学CoreNLP中没有任何东西)。一些提示:研究基于方面的情感分析。在这种情况下,苹果将是一个“方面”(并不是真的,但可以这样建模)。安德鲁·麦卡勒姆()在UMass的团队、在UIC的刘冰冰( Bing Liu)所在的团队、康奈尔大学的NLP集团等,都致力于解决这个问题。
如果你想快速修复,我建议从引用苹果及其产品的句子中提取情感;使用coref (查看斯坦福大学CoreNLP中的dcoref注释器),这将增加句子的回忆,并解决“然而,它缺乏.”之类的句子问题。
https://stackoverflow.com/questions/28453404
复制相似问题