我试图建立doc2vec模型,使用gensim + sklearn对短句子(如评论、推特、评论等)进行情感分析。
我下载了amazon产品审查数据集,twitter情绪分析数据集和imbd电影评论数据集。
然后将其归纳为积极、消极和中立三大类。
然后,在上述数据上建立了gensim doc2vec模型,从而得到分类神经网络的输入向量。
并利用sklearn模型对我的测试数据进行了预测,从上述三组数据中分别得到了约10%的数据。
不幸的是,结果并不像我预期的那样好。大部分的教程似乎只专注于一个特定的任务,‘只分类亚马逊评论’或'twitter情绪‘,我无法找到任何更普遍的目的。
有人能分享他/她在这方面的想法吗?
发布于 2018-10-16 21:35:58
你期望的有多好,你的成就有多好?
结合这三个数据集可能不会提高整体情绪检测能力,如果情绪的意符在这些不同的领域有所不同。(也许,“正面”推文在措辞上与产品评论或电影评论有很大不同。只有几个到几十个单词的推文通常与数百个单词的评论非常不同。)您是否分别尝试过每一种方法,以确保组合是有帮助的?
您的性能是否与在大致相同的数据集上使用大致相同的管道(Doc2Vec + LinearRegression)的其他在线报告一致,还是大不相同?这将是一个线索,你是做错了什么,还是只是有-过高的期望。
例如,捆绑在doc2vec-IMDB.ipynb笔记本上的gensim试图从原始的‘段落向量’论文中复制一个实验,在IMDB数据集上进行情感检测。(我不确定该数据集是否与您使用的数据集相同。)你的成绩是否与笔记本电脑的一般成绩相同?
没有看到您的代码,以及您的语料库处理和参数选择的细节,可能会出现各种各样的错误。许多网上的例子都是毫无意义的选择。但也许你的期望值太低了。
https://stackoverflow.com/questions/52842474
复制相似问题