对于一个6类句子分类任务(情感),我有一个句子列表,其中我使用一个在Tweets (bertweet)上训练的语言模型来检索情感。
对于那些感情也很明显的简单化的句子(有人死了,有人赢了,有人害怕,等等),这很好。然而,当它应用于文章时,却表现出无法控制的行为。
sadness类的两个示例:
How Your Family Can Volunteer During the Pandemic: 99% probability of sadness
There was a massacre in Bosnia where many were slaughtered: 96% probability of sadness我试着删除softmax,将概率分解为绝对值,以确定是否存在差异,但它似乎是边际的,第一句比关于大屠杀的第二句更“悲哀”。
对于所有其他类,还有更多这样的例子。有任何关于文章的培训模式吗?可能点击诱饵标题和种类?
发布于 2022-11-09 19:23:03
因此,我认为对模型的解释是问题的一部分。
对于第一个:“你的家庭如何能够在大流行期间志愿服务”,他们的模式并不是99%的悲伤。根据你的训练,99%的人相信这句话的上下文是悲伤的。
第二句也是如此:“波斯尼亚发生了大屠杀,许多人被屠杀”,这一模式96%的人相信,可悲的是这一观察的情绪。
这些可能性并不是感情的强烈程度。因此,如果您发现您的模型在许多或大多数测试用例上表现不佳,这就说明了以下几点中的一件:
根据我的经验,当人们选择句子时,这种情况经常发生,“看看这个NLP模型在这个问题上有多糟糕:X。”这在我的工作中经常发生。但是请记住,神经网络的设计是为了通过适当的训练来模拟人类神经网络。人类不断地投入和加强我们的训练。我们对情绪评估的微妙和一致性是数十亿风险暴露的结果。你的模特只有你训练过的东西。
期待它永远是正确的是不合理的。而且,相对于我们的紧张感,情绪的可能性也不是很大。该模型的目标是选择一个类。这是通过识别一种情绪并给出一个概率来实现的。
作为模型的创建者,您可以决定截止值在哪里。
至于模型本身,您显示的是什么样子的标题。
你是在接受关于文章标题的培训还是关于文章本身的培训?
标题和文章在语言上不是一回事。使用为tweet设计的模型来评估长格式副本也可能无法提供最佳的泛化能力,这取决于您的方法。
在我个人的经验中,标签本身和你在语言模型上所做的前期工作(争吵、修饰等等)(包括训练副本的大小和形状的相对相似性)与结果有很大关系,而不是模型结构中的小变化。
我首先看一下全局的准确性,然后看看如果失败的所有情况,看看训练数据中是否缺少什么,你可以补充一下,以纠正错误的预测。
https://datascience.stackexchange.com/questions/116016
复制相似问题