我目前正在使用Python进行情感分析。根据情绪分析,我想找出一部电影的评论是正面的还是负面的。我在此链接中找到了一个培训数据集。
这个数据集有评论,得分1表示评论为正,0表示电影评论为负值,但记录数量较少。我有一个测试数据集,我将预测基于训练集。我的测试数据集有复杂而冗长的单词,我的python模型有时会给出负面评论的正结果(负面评论返回的结果为1)。我正在寻找更好的数据集来训练我的模型,以便我的模型能够很好地预测。你能告诉我任何好的/大的和有效的训练数据用于这个场景吗?如果你能分享任何链接,那将是很棒的。培训数据可以格式为1的正面评论,0的负面评论,甚至极性,如pos,积极的评论,或neg的负面评论。
发布于 2016-04-25 14:14:35
您可以使用SAR14 14数据集 of 234 k IMDb电影评论。论文“SAR14”中详细介绍了极性评论的情感分类:基于评级特征的实证研究数据集的构造。
发布于 2016-04-15 12:23:42
有许多可用的数据集。
发布于 2017-06-26 11:30:35
7000个样本数据条目肯定是不够的,因为一本或多或少可靠的情感词词典包含了几千个单词,每个词包含了积极和消极的情绪。基本上,当你训练模型时,你会在某种意义上建立这样一本字典。
但是,有一个由50000条评论组成的现有培训/测试数据集,它比你所拥有的要好一些。
同时,虽然训练样本数据的数量有助于分类器的质量,但同样重要的是,文本作者在培训集中使用的风格和字典类似于您的测试文本。此外,文本处理技巧,如词干,可以提高培训效率。
要了解更多信息,您可能想看看这篇博客文章 --我和几位同事都写过关于创建培训和测试数据集的文章。
https://datascience.stackexchange.com/questions/11220
复制相似问题