文章/答案/技术大牛

发布

社区首页 >问答首页 >Doc2Vec通用情感分析数据集

问Doc2Vec通用情感分析数据集
EN

Stack Overflow用户

提问于 2018-10-16 19:11:06

回答 1查看 370关注 0票数 0

我试图建立doc2vec模型，使用gensim + sklearn对短句子(如评论、推特、评论等)进行情感分析。

我下载了amazon产品审查数据集，twitter情绪分析数据集和imbd电影评论数据集。

然后将其归纳为积极、消极和中立三大类。

然后，在上述数据上建立了gensim doc2vec模型，从而得到分类神经网络的输入向量。

并利用sklearn模型对我的测试数据进行了预测，从上述三组数据中分别得到了约10%的数据。

不幸的是，结果并不像我预期的那样好。大部分的教程似乎只专注于一个特定的任务，‘只分类亚马逊评论’或'twitter情绪‘，我无法找到任何更普遍的目的。

有人能分享他/她在这方面的想法吗？

dataset

artificial-intelligence

gensim

sentiment-analysis

doc2vec

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-10-16 21:35:58

你期望的有多好，你的成就有多好？

结合这三个数据集可能不会提高整体情绪检测能力，如果情绪的意符在这些不同的领域有所不同。(也许，“正面”推文在措辞上与产品评论或电影评论有很大不同。只有几个到几十个单词的推文通常与数百个单词的评论非常不同。)您是否分别尝试过每一种方法，以确保组合是有帮助的？

您的性能是否与在大致相同的数据集上使用大致相同的管道(Doc2Vec + LinearRegression)的其他在线报告一致，还是大不相同？这将是一个线索，你是做错了什么，还是只是有-过高的期望。

例如，捆绑在doc2vec-IMDB.ipynb笔记本上的gensim试图从原始的‘段落向量’论文中复制一个实验，在IMDB数据集上进行情感检测。(我不确定该数据集是否与您使用的数据集相同。)你的成绩是否与笔记本电脑的一般成绩相同？

没有看到您的代码，以及您的语料库处理和参数选择的细节，可能会出现各种各样的错误。许多网上的例子都是毫无意义的选择。但也许你的期望值太低了。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52842474

复制

相似问题

问Doc2Vec通用情感分析数据集
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Doc2Vec通用情感分析数据集EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Doc2Vec通用情感分析数据集
EN