首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >电影评论情感分析的训练数据集

电影评论情感分析的训练数据集
EN

Data Science用户
提问于 2016-04-15 03:33:55
回答 5查看 18.1K关注 0票数 7

我目前正在使用Python进行情感分析。根据情绪分析,我想找出一部电影的评论是正面的还是负面的。我在此链接中找到了一个培训数据集。

这个数据集有评论,得分1表示评论为正,0表示电影评论为负值,但记录数量较少。我有一个测试数据集,我将预测基于训练集。我的测试数据集有复杂而冗长的单词,我的python模型有时会给出负面评论的正结果(负面评论返回的结果为1)。我正在寻找更好的数据集来训练我的模型,以便我的模型能够很好地预测。你能告诉我任何好的/大的和有效的训练数据用于这个场景吗?如果你能分享任何链接,那将是很棒的。培训数据可以格式为1的正面评论,0的负面评论,甚至极性,如pos,积极的评论,或neg的负面评论。

EN

回答 5

Data Science用户

发布于 2016-04-25 14:14:35

您可以使用SAR14 14数据集 of 234 k IMDb电影评论。论文“SAR14”中详细介绍了极性评论的情感分类:基于评级特征的实证研究数据集的构造。

票数 8
EN

Data Science用户

发布于 2016-04-15 12:23:42

有许多可用的数据集。

  • 多域情感数据集
  • 推特情绪
  • UCI
  • 情感分析数据集
  • 大型电影评论数据集
票数 3
EN

Data Science用户

发布于 2017-06-26 11:30:35

7000个样本数据条目肯定是不够的,因为一本或多或少可靠的情感词词典包含了几千个单词,每个词包含了积极和消极的情绪。基本上,当你训练模型时,你会在某种意义上建立这样一本字典。

但是,有一个由50000条评论组成的现有培训/测试数据集,它比你所拥有的要好一些。

同时,虽然训练样本数据的数量有助于分类器的质量,但同样重要的是,文本作者在培训集中使用的风格和字典类似于您的测试文本。此外,文本处理技巧,如词干,可以提高培训效率。

要了解更多信息,您可能想看看这篇博客文章 --我和几位同事都写过关于创建培训和测试数据集的文章。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/11220

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档