我正在做一个小的研究项目,我应该尝试将财经新闻文章的标题划分为正向和负向classes.For分类。我正在使用支持向量机approach.The主要问题,我现在看到它不能为ML产生很多特征。新闻文章包含许多命名实体和其他“垃圾”元素(当然,从我的角度来看)。
你能推荐一些可以用于ML训练的ML特征吗?当前结果为: precision =0.6,recall=0.8
谢谢
发布于 2012-07-18 07:28:05
这项任务一点也不简单。
最简单的方法是找到或创建一个训练集。这是一组具有积极消息的标题和一组具有负面消息的标题。您将训练集转换为TF/IDF表示,然后训练线性支持向量机来分离这两个类。根据你训练集的质量和大小,你可以实现一些像样的东西--不确定0.7的收支平衡点。
然后,为了获得更好的结果,您需要使用NLP方法。尝试使用词性标记器来识别形容词(微不足道的),然后使用SentiWordNet等情感数据库对它们进行评分。
关于Sentiment Analysis by Bo Pang and Lillian Lee有一个很好的概述,你应该读一读:
发布于 2012-07-18 01:20:46
这些特性怎么样?
如果你被允许访问实际的文章,你可以使用实际文章的表面特征,比如它的总长度,甚至可能是对该文章的回复数量或反对程度。你也可以在网上查阅很多其他的字典,比如Ogden的850基础英语字典,看看好的/坏的文章是否有可能从这些字典中提取很多单词。我同意这似乎很难想出一个长长的列表(例如100个特性)来实现这一目的。
发布于 2012-07-19 00:55:29
iliasfl是对的,这不是一个简单的任务。
我会使用词袋方法,但首先使用词性标记器来标记标题中的每个单词。然后,您可以删除所有命名实体-正如您正确地指出的那样,这些实体不会影响情绪。其他词应该足够频繁地出现(如果你的数据集足够大),以抵消它们自己被极化为积极或消极。
再往前走一步,如果你仍然没有接近,可以只从标记的数据中选择形容词和动词,因为它们是倾向于表达情感或情绪的词。
我不会对你的精确度和回忆数字感到太沮丧,不过,F值在0.8或更高实际上已经很好了。
https://stackoverflow.com/questions/11516459
复制相似问题