我正在读一本纸,作者们用中国的伯特模型来评估中国的在线公众情绪,以回应政府在新冠肺炎期间的政策。提交人的目标不仅是了解某一在线帖子是关键的还是支持性的,而且是了解每一篇文章针对谁(例如,CCP、地方政府、卫生部等)。为了实现这一点,作者在第8页到第9页中进一步指出,“为了训练分类员,我们从每个数据集(总共10,541个帖子)随机抽取了大约5,000个帖子,按创建后的数据进行分层。该样本用于一些分析,我们称之为手工注释样本。”
我的问题是,结合BERT情感分析模型使用人工注释的帖子有什么价值?
具体来说,我对伯特作为一种技术的理解是,它消除或至少最小化了为情感分析的目的对文本样本进行预标记的必要性,而且我不清楚为什么即使在使用伯特时,我们仍然需要人工注释文本。
发布于 2022-07-20 15:02:21
伯特接受了两项通用任务的预培训:蒙面语言建模和下一句预测。因此,这些任务是它唯一能做的事情。如果你想把它用于任何其他事情,它需要对你想要它做的特定任务进行微调,因此,你需要训练数据,要么来自人工注释,要么来自你认为合适的任何其他来源。
对伯特进行微调而不是从零开始训练一个模型的要点是,最终的性能可能会更好。这是因为在BERT预培训过程中学习到的权重是模型完成典型的下游NLP任务(如情感分类)的良好起点。
在您提到的这篇文章中,作者描述了他们对人工注释的数据进行多次微调的一个中文BERT模型:
微调伯特通常提供更好的结果,而不仅仅是从零开始训练一个模型,因为伯特是在一个非常大的数据集上训练的。这使得BERT计算的内部文本表示对于很少出现在较小训练集中的不频繁文本模式更加健壮。此外,基于词典的情感分析往往比微调BERT的结果更糟糕,因为基于词典的方法很难理解语言的细微差别,因为“不”不仅改变了句子的所有意义,而且任何语法结构都能给出微妙的意义变化。
https://datascience.stackexchange.com/questions/112826
复制相似问题