我正在使用路德维希训练和测试数据集。有一个自变量具有文本数据类型。我使用'Parallel_CNN‘作为自变量的文本编码器。我的因变量具有类别数据类型,并且它有一个二进制值(即0或1)。模型完成后,我以混淆矩阵的形式绘制了预测输出和实际输出,如下所示:

我期待TP,TN,FP和FN在混淆矩阵中。然而,这是未知的也发现在混淆矩阵。我试图在谷歌上找到未知对模型学习的意义和影响,但却找不到任何有用的信息。有人能帮我吗?为什么‘叔叔’会成为模特?这是否意味着模型在学习上没有效率?
发布于 2021-02-27 18:21:04
我不知道路德维希,甚至“平行CNN”,但有一个明显的问题:这不是一个混乱的矩阵,这是一个热图。
很可能这个热图是由标签的概率组成的,而不是标签本身(颜色的选择也是不寻常的,但这并不重要)。
好消息是,大多数以0或1作为真正标签的实例似乎都被正确地预测了( 1,1和0,0的高值)。
坏消息是标签本身存在一个问题:显然有大量的实例(我认为至少有三分之一)没有任何标签,而且被认为是“未知的”。显然,系统只是将这些“未知”实例视为第三类,因此您的标签实际上不是二进制的。它能够很好地识别这个类,但这可能是一个您应该研究的问题。
https://datascience.stackexchange.com/questions/90005
复制相似问题