文章/答案/技术大牛

发布

社区首页 >问答首页 >电影评论情感分析的训练数据集

问电影评论情感分析的训练数据集
EN

Data Science用户

提问于 2016-04-15 03:33:55

回答 5查看 18.1K关注 0票数 7

我目前正在使用Python进行情感分析。根据情绪分析，我想找出一部电影的评论是正面的还是负面的。我在此链接中找到了一个培训数据集。

这个数据集有评论，得分1表示评论为正，0表示电影评论为负值，但记录数量较少。我有一个测试数据集，我将预测基于训练集。我的测试数据集有复杂而冗长的单词，我的python模型有时会给出负面评论的正结果(负面评论返回的结果为1)。我正在寻找更好的数据集来训练我的模型，以便我的模型能够很好地预测。你能告诉我任何好的/大的和有效的训练数据用于这个场景吗？如果你能分享任何链接，那将是很棒的。培训数据可以格式为1的正面评论，0的负面评论，甚至极性，如pos，积极的评论，或neg的负面评论。

machine-learning

python

classification

data-mining

sentiment-analysis

回答 5

Data Science用户

发布于 2016-04-25 14:14:35

您可以使用SAR14 14数据集 of 234 k IMDb电影评论。论文“SAR14”中详细介绍了极性评论的情感分类:基于评级特征的实证研究数据集的构造。

票数 8

Data Science用户

发布于 2016-04-15 12:23:42

有许多可用的数据集。

多域情感数据集
推特情绪
UCI
情感分析数据集
大型电影评论数据集

票数 3

Data Science用户

发布于 2017-06-26 11:30:35

7000个样本数据条目肯定是不够的，因为一本或多或少可靠的情感词词典包含了几千个单词，每个词包含了积极和消极的情绪。基本上，当你训练模型时，你会在某种意义上建立这样一本字典。

但是，有一个由50000条评论组成的现有培训/测试数据集，它比你所拥有的要好一些。

同时，虽然训练样本数据的数量有助于分类器的质量，但同样重要的是，文本作者在培训集中使用的风格和字典类似于您的测试文本。此外，文本处理技巧，如词干，可以提高培训效率。

要了解更多信息，您可能想看看这篇博客文章 --我和几位同事都写过关于创建培训和测试数据集的文章。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/11220

复制

相似问题

问电影评论情感分析的训练数据集
EN

回答 5

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问电影评论情感分析的训练数据集EN

回答 5

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问电影评论情感分析的训练数据集
EN