首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >NLP BERT模型在情感分析中的局限性

NLP BERT模型在情感分析中的局限性
EN

Data Science用户
提问于 2022-07-20 13:06:43
回答 1查看 284关注 0票数 0

我正在读一本,作者们用中国的伯特模型来评估中国的在线公众情绪,以回应政府在新冠肺炎期间的政策。提交人的目标不仅是了解某一在线帖子是关键的还是支持性的,而且是了解每一篇文章针对谁(例如,CCP、地方政府、卫生部等)。为了实现这一点,作者在第8页到第9页中进一步指出,“为了训练分类员,我们从每个数据集(总共10,541个帖子)随机抽取了大约5,000个帖子,按创建后的数据进行分层。该样本用于一些分析,我们称之为手工注释样本。”

我的问题是,结合BERT情感分析模型使用人工注释的帖子有什么价值?

具体来说,我对伯特作为一种技术的理解是,它消除或至少最小化了为情感分析的目的对文本样本进行预标记的必要性,而且我不清楚为什么即使在使用伯特时,我们仍然需要人工注释文本。

EN

回答 1

Data Science用户

回答已采纳

发布于 2022-07-20 15:02:21

伯特接受了两项通用任务的预培训:蒙面语言建模和下一句预测。因此,这些任务是它唯一能做的事情。如果你想把它用于任何其他事情,它需要对你想要它做的特定任务进行微调,因此,你需要训练数据,要么来自人工注释,要么来自你认为合适的任何其他来源。

对伯特进行微调而不是从零开始训练一个模型的要点是,最终的性能可能会更好。这是因为在BERT预培训过程中学习到的权重是模型完成典型的下游NLP任务(如情感分类)的良好起点。

在您提到的这篇文章中,作者描述了他们对人工注释的数据进行多次微调的一个中文BERT模型

  1. 对微博是否指新冠肺炎进行分类。
  2. 对职位是否包含批评或支持进行分类。
  3. 确定是否包含针对政府的批评的职位。
  4. 确定是否向政府提供支持的职位。

微调伯特通常提供更好的结果,而不仅仅是从零开始训练一个模型,因为伯特是在一个非常大的数据集上训练的。这使得BERT计算的内部文本表示对于很少出现在较小训练集中的不频繁文本模式更加健壮。此外,基于词典的情感分析往往比微调BERT的结果更糟糕,因为基于词典的方法很难理解语言的细微差别,因为“不”不仅改变了句子的所有意义,而且任何语法结构都能给出微妙的意义变化。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/112826

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档