问题是,当情绪分析模型在不同的数据集上测试时,需要记住的东西比他们接受的训练要好得多,要记住什么。
比方说,任务是对产品评论(未标注的数据集)进行情感分析--将正面、负面或神经分类。由于数据没有标签,所以可以在类似的标记数据集(例如电影评论或产品评论)上对模型进行培训(可能使用logistic回归或NN),并在原始的未标记数据集上进行测试。
像这样的东西有用吗?因为在未标注的数据集中出现的产品名称的单词将不是模型在培训期间暴露的单词,在测试期间这些单词可能会抛出模型吗?
发布于 2019-02-01 18:45:37
我不能完全回答你的问题,但我想在这里提出几点我的想法: 1)情绪分析的转移学习可能很难,因为从一个主题中学到的知识可能不够广泛或笼统,不能很好地完成目标任务或下游任务。例如,我最近使用Twitter航空公司的客户审查数据训练了一个神经网络以及Word2Vec嵌入,预测准确率为77%。然而,当我使用相同的Word2Vec和神经网络对一些一般的客户评论数据进行分类时,预测的准确率仅为35%。
2)自然语言处理中的迁移学习是一个热门话题,近年来许多研究者对此进行了深入的研究。2018年在迁移学习方面取得了一些突破,比如Google通用语句编码器、BERT算法等。我在这里不能给你一个全面的列表,因为我也在学习。我建议你深入一些博客文章,甚至原始的研究文章,以获得一个更好的理解。
希望它能帮上忙。
https://datascience.stackexchange.com/questions/32799
复制相似问题