文章/答案/技术大牛

发布

社区首页 >问答首页 >财经新闻标题分类为正/负类

问财经新闻标题分类为正/负类
EN

Stack Overflow用户

提问于 2012-07-17 13:24:53

回答 3查看 1.2K关注 0票数 2

我正在做一个小的研究项目，我应该尝试将财经新闻文章的标题划分为正向和负向classes.For分类。我正在使用支持向量机approach.The主要问题，我现在看到它不能为ML产生很多特征。新闻文章包含许多命名实体和其他“垃圾”元素(当然，从我的角度来看)。

你能推荐一些可以用于ML训练的ML特征吗？当前结果为: precision =0.6，recall=0.8

谢谢

nlp

classification

svm

sentiment-analysis

回答 3

Stack Overflow用户

发布于 2012-07-18 07:28:05

这项任务一点也不简单。

最简单的方法是找到或创建一个训练集。这是一组具有积极消息的标题和一组具有负面消息的标题。您将训练集转换为TF/IDF表示，然后训练线性支持向量机来分离这两个类。根据你训练集的质量和大小，你可以实现一些像样的东西--不确定0.7的收支平衡点。

然后，为了获得更好的结果，您需要使用NLP方法。尝试使用词性标记器来识别形容词(微不足道的)，然后使用SentiWordNet等情感数据库对它们进行评分。

关于Sentiment Analysis by Bo Pang and Lillian Lee有一个很好的概述，你应该读一读：

票数 2

Stack Overflow用户

发布于 2012-07-18 01:20:46

这些特性怎么样？

文章标题的长度
Average word length
字典中“坏”字的数量，例如dictionary ={可怕，可怕，低迷，破产，...}。您可能必须在该词典中生成单词的字典，以使sentence
Similar中的单词总数为3，但“好”单词词典中的单词数量，例如dictionary = {boon，booming，employment，...}与5类似，但使用文章发布时所使用的文章publication
Date of publication
The dictionary
Time的"good“
-word(您必须对某些标点符号进行一些主观的classification)
A计数，例如，感叹号

如果你被允许访问实际的文章，你可以使用实际文章的表面特征，比如它的总长度，甚至可能是对该文章的回复数量或反对程度。你也可以在网上查阅很多其他的字典，比如Ogden的850基础英语字典，看看好的/坏的文章是否有可能从这些字典中提取很多单词。我同意这似乎很难想出一个长长的列表(例如100个特性)来实现这一目的。

票数 1

Stack Overflow用户

发布于 2012-07-19 00:55:29

iliasfl是对的，这不是一个简单的任务。

我会使用词袋方法，但首先使用词性标记器来标记标题中的每个单词。然后，您可以删除所有命名实体-正如您正确地指出的那样，这些实体不会影响情绪。其他词应该足够频繁地出现(如果你的数据集足够大)，以抵消它们自己被极化为积极或消极。

再往前走一步，如果你仍然没有接近，可以只从标记的数据中选择形容词和动词，因为它们是倾向于表达情感或情绪的词。

我不会对你的精确度和回忆数字感到太沮丧，不过，F值在0.8或更高实际上已经很好了。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/11516459

复制

相似问题

问财经新闻标题分类为正/负类
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问财经新闻标题分类为正/负类EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问财经新闻标题分类为正/负类
EN