首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >不正确的文本分类,但精确的模型。是否对数据集执行手动文本分类?

不正确的文本分类,但精确的模型。是否对数据集执行手动文本分类?
EN

Data Science用户
提问于 2019-06-08 20:46:24
回答 1查看 134关注 0票数 1

我目前正在使用谷歌的BERT预培训情绪分析模型,该模型是在IMDb pos/neg审查数据集上进行培训的。我用这个模型来预测推特是正面的(看涨的)还是负面的(看跌的)。当插入我自己的测试数据时,该模型是准确的(F1评分在86%之间),但分类本身并不准确。无疑是积极的/看涨的,而且没有被归类为积极的推特。或许这是因为投资领域的语言与电影评论不同--电影评论使用的是公认的积极/消极词汇和/或句子。

当我使用tweet数据集并使用Vader SentimentIntensityAnalyser将pos/neg tweet解析为不同的文件夹时,情况也是如此。

所以我的问题是..。既然用来判断一只股票是否看涨/看跌的语言与亚马逊评论或电影评论有着独特的不同,那么手动将我的数据集分类为正数据集(牛市数据集)和负面数据集(看跌数据集)是否是最佳的选择?

EN

回答 1

Data Science用户

发布于 2019-06-08 22:49:04

使用带有黄金标准类注释的实例有两个不同的原因,即目标应用程序的真实答案:

  • 为了执行正确的评估,您的测试集必须包含金本位标签。评估的原则是用预测偏离真理的程度来衡量,但是没有事实,你在测试集上获得的表现对你正在做的任务来说是毫无意义的。
  • 为了训练有监督或半监督的模型,训练集必须包含金标标签。半监督的方法提供了一些选项来调整训练集以适应不同的任务。

如果不能至少在一个小样本上对模型进行评估,就不能依赖模型,所以是的,您可能需要手动注释数据的子集。只有在那之后,你才能开始思考如何提高性能。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/53462

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档