首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >情绪分析的好数据集?

情绪分析的好数据集?
EN

Stack Overflow用户
提问于 2014-07-07 16:04:10
回答 3查看 49K关注 0票数 16

我正在做情感分析,我正在使用这个链接中给出的数据集:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html和我已经将我的数据集划分为50:50的比例。50%用作测试样本,50%用作训练样本,从训练样本中提取特征并使用Weka分类器进行分类,但我的预测准确率约为70-75%。

谁能推荐一些其他的数据集来帮助我提高结果-我已经使用了unigram,bigram和POStags作为我的特征。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2014-07-08 05:55:10

有很多来源可以获取情感分析数据集:

来自谷歌storage.googleapis.com/books/ngrams/books/datasetsv2.html

  • http://www.sananalytics.com/lab/twitter-sentiment/

  • http://inclass.kaggle.com/c/si650winter11/data

  • http://nlp.stanford.edu/sentiment/treebank.html

无论如何,这并不意味着它将帮助您在当前数据集上获得更好的准确性,因为语料库可能与您的数据集非常不同。除了减少测试百分比与训练百分比之外,您还可以:测试其他分类器,或者使用半自动包装器(如CVParameterSelection或GridSearch )微调所有超参数,甚至可以使用自动weka(如果合适的话)。

使用50/50是相当罕见的,80/20是一个相当常见的比率。更好的做法是使用: 60%用于训练,20%用于交叉验证,20%用于测试。

票数 26
EN

Stack Overflow用户

发布于 2018-05-18 03:10:32

我开始在一个地方收集情感分析工具/数据集/词典,它也可能对你有用:https://github.com/laugustyniak/awesome-sentiment-analysis

如果你想添加更多内容或者只是写信给我,就开始公关吧。我用亚马逊的数据做了很多工作,有数百万条评论。

票数 3
EN

Stack Overflow用户

发布于 2018-05-28 02:39:36

以下是给出单个单词的情感的数据集的列表。http://positivewordsresearch.com/sentiment-analysis-resources/

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24605702

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档