我正在做情感分析,我正在使用这个链接中给出的数据集:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html和我已经将我的数据集划分为50:50的比例。50%用作测试样本,50%用作训练样本,从训练样本中提取特征并使用Weka分类器进行分类,但我的预测准确率约为70-75%。
谁能推荐一些其他的数据集来帮助我提高结果-我已经使用了unigram,bigram和POStags作为我的特征。
发布于 2014-07-08 05:55:10
有很多来源可以获取情感分析数据集:
来自谷歌storage.googleapis.com/books/ngrams/books/datasetsv2.html
无论如何,这并不意味着它将帮助您在当前数据集上获得更好的准确性,因为语料库可能与您的数据集非常不同。除了减少测试百分比与训练百分比之外,您还可以:测试其他分类器,或者使用半自动包装器(如CVParameterSelection或GridSearch )微调所有超参数,甚至可以使用自动weka(如果合适的话)。
使用50/50是相当罕见的,80/20是一个相当常见的比率。更好的做法是使用: 60%用于训练,20%用于交叉验证,20%用于测试。
发布于 2018-05-18 03:10:32
我开始在一个地方收集情感分析工具/数据集/词典,它也可能对你有用:https://github.com/laugustyniak/awesome-sentiment-analysis
如果你想添加更多内容或者只是写信给我,就开始公关吧。我用亚马逊的数据做了很多工作,有数百万条评论。
发布于 2018-05-28 02:39:36
以下是给出单个单词的情感的数据集的列表。http://positivewordsresearch.com/sentiment-analysis-resources/
https://stackoverflow.com/questions/24605702
复制相似问题