文章/答案/技术大牛

发布

社区首页 >问答首页 >不正确的文本分类，但精确的模型。是否对数据集执行手动文本分类？

问不正确的文本分类，但精确的模型。是否对数据集执行手动文本分类？
EN

Data Science用户

提问于 2019-06-08 20:46:24

回答 1查看 134关注 0票数 1

我目前正在使用谷歌的BERT预培训情绪分析模型，该模型是在IMDb pos/neg审查数据集上进行培训的。我用这个模型来预测推特是正面的(看涨的)还是负面的(看跌的)。当插入我自己的测试数据时，该模型是准确的(F1评分在86%之间)，但分类本身并不准确。无疑是积极的/看涨的，而且没有被归类为积极的推特。或许这是因为投资领域的语言与电影评论不同--电影评论使用的是公认的积极/消极词汇和/或句子。

当我使用tweet数据集并使用Vader SentimentIntensityAnalyser将pos/neg tweet解析为不同的文件夹时，情况也是如此。

所以我的问题是..。既然用来判断一只股票是否看涨/看跌的语言与亚马逊评论或电影评论有着独特的不同，那么手动将我的数据集分类为正数据集(牛市数据集)和负面数据集(看跌数据集)是否是最佳的选择？

machine-learning

classification

nlp

data

bert

回答 1

Data Science用户

发布于 2019-06-08 22:49:04

使用带有黄金标准类注释的实例有两个不同的原因，即目标应用程序的真实答案：

为了执行正确的评估，您的测试集必须包含金本位标签。评估的原则是用预测偏离真理的程度来衡量，但是没有事实，你在测试集上获得的表现对你正在做的任务来说是毫无意义的。
为了训练有监督或半监督的模型，训练集必须包含金标标签。半监督的方法提供了一些选项来调整训练集以适应不同的任务。

如果不能至少在一个小样本上对模型进行评估，就不能依赖模型，所以是的，您可能需要手动注释数据的子集。只有在那之后，你才能开始思考如何提高性能。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/53462

复制

相似问题

问不正确的文本分类，但精确的模型。是否对数据集执行手动文本分类？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问不正确的文本分类，但精确的模型。是否对数据集执行手动文本分类？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问不正确的文本分类，但精确的模型。是否对数据集执行手动文本分类？
EN