首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >财经新闻标题分类为正/负类

财经新闻标题分类为正/负类
EN

Stack Overflow用户
提问于 2012-07-17 13:24:53
回答 3查看 1.2K关注 0票数 2

我正在做一个小的研究项目,我应该尝试将财经新闻文章的标题划分为正向和负向classes.For分类。我正在使用支持向量机approach.The主要问题,我现在看到它不能为ML产生很多特征。新闻文章包含许多命名实体和其他“垃圾”元素(当然,从我的角度来看)。

你能推荐一些可以用于ML训练的ML特征吗?当前结果为: precision =0.6,recall=0.8

谢谢

EN

回答 3

Stack Overflow用户

发布于 2012-07-18 07:28:05

这项任务一点也不简单。

最简单的方法是找到或创建一个训练集。这是一组具有积极消息的标题和一组具有负面消息的标题。您将训练集转换为TF/IDF表示,然后训练线性支持向量机来分离这两个类。根据你训练集的质量和大小,你可以实现一些像样的东西--不确定0.7的收支平衡点。

然后,为了获得更好的结果,您需要使用NLP方法。尝试使用词性标记器来识别形容词(微不足道的),然后使用SentiWordNet等情感数据库对它们进行评分。

关于Sentiment Analysis by Bo Pang and Lillian Lee有一个很好的概述,你应该读一读:

票数 2
EN

Stack Overflow用户

发布于 2012-07-18 01:20:46

这些特性怎么样?

  1. 文章标题的长度
  2. Average word length
  3. 字典中“坏”字的数量,例如dictionary ={可怕,可怕,低迷,破产,...}。您可能必须在该词典中生成单词的字典,以使sentence
  4. Similar中的单词总数为3,但“好”单词词典中的单词数量,例如dictionary = {boon,booming,employment,...}与5类似,但使用文章发布时所使用的文章publication
  5. Date of publication
  6. The dictionary
  7. Time的"good“
  8. -word(您必须对某些标点符号进行一些主观的classification)
  9. A计数,例如,感叹号

如果你被允许访问实际的文章,你可以使用实际文章的表面特征,比如它的总长度,甚至可能是对该文章的回复数量或反对程度。你也可以在网上查阅很多其他的字典,比如Ogden的850基础英语字典,看看好的/坏的文章是否有可能从这些字典中提取很多单词。我同意这似乎很难想出一个长长的列表(例如100个特性)来实现这一目的。

票数 1
EN

Stack Overflow用户

发布于 2012-07-19 00:55:29

iliasfl是对的,这不是一个简单的任务。

我会使用词袋方法,但首先使用词性标记器来标记标题中的每个单词。然后,您可以删除所有命名实体-正如您正确地指出的那样,这些实体不会影响情绪。其他词应该足够频繁地出现(如果你的数据集足够大),以抵消它们自己被极化为积极或消极。

再往前走一步,如果你仍然没有接近,可以只从标记的数据中选择形容词和动词,因为它们是倾向于表达情感或情绪的词。

我不会对你的精确度和回忆数字感到太沮丧,不过,F值在0.8或更高实际上已经很好了。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/11516459

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档