首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Doc2Vec通用情感分析数据集

Doc2Vec通用情感分析数据集
EN

Stack Overflow用户
提问于 2018-10-16 19:11:06
回答 1查看 370关注 0票数 0

我试图建立doc2vec模型,使用gensim + sklearn对短句子(如评论、推特、评论等)进行情感分析。

我下载了amazon产品审查数据集twitter情绪分析数据集imbd电影评论数据集

然后将其归纳为积极、消极和中立三大类。

然后,在上述数据上建立了gensim doc2vec模型,从而得到分类神经网络的输入向量。

并利用sklearn模型对我的测试数据进行了预测,从上述三组数据中分别得到了约10%的数据。

不幸的是,结果并不像我预期的那样好。大部分的教程似乎只专注于一个特定的任务,‘只分类亚马逊评论’或'twitter情绪‘,我无法找到任何更普遍的目的。

有人能分享他/她在这方面的想法吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-10-16 21:35:58

你期望的有多好,你的成就有多好?

结合这三个数据集可能不会提高整体情绪检测能力,如果情绪的意符在这些不同的领域有所不同。(也许,“正面”推文在措辞上与产品评论或电影评论有很大不同。只有几个到几十个单词的推文通常与数百个单词的评论非常不同。)您是否分别尝试过每一种方法,以确保组合是有帮助的?

您的性能是否与在大致相同的数据集上使用大致相同的管道(Doc2Vec + LinearRegression)的其他在线报告一致,还是大不相同?这将是一个线索,你是做错了什么,还是只是有-过高的期望。

例如,捆绑在doc2vec-IMDB.ipynb笔记本上的gensim试图从原始的‘段落向量’论文中复制一个实验,在IMDB数据集上进行情感检测。(我不确定该数据集是否与您使用的数据集相同。)你的成绩是否与笔记本电脑的一般成绩相同?

没有看到您的代码,以及您的语料库处理和参数选择的细节,可能会出现各种各样的错误。许多网上的例子都是毫无意义的选择。但也许你的期望值太低了。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52842474

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档