问ludwig学习模型
EN

Data Science用户

提问于 2021-02-26 23:01:08

回答 1查看 30关注 0票数 1

我正在使用路德维希训练和测试数据集。有一个自变量具有文本数据类型。我使用'Parallel_CNN‘作为自变量的文本编码器。我的因变量具有类别数据类型，并且它有一个二进制值(即0或1)。模型完成后，我以混淆矩阵的形式绘制了预测输出和实际输出，如下所示：

我期待TP，TN，FP和FN在混淆矩阵中。然而，这是未知的也发现在混淆矩阵。我试图在谷歌上找到未知对模型学习的意义和影响，但却找不到任何有用的信息。有人能帮我吗?为什么‘叔叔’会成为模特？这是否意味着模型在学习上没有效率？

发布于 2021-02-27 18:21:04

我不知道路德维希，甚至“平行CNN”，但有一个明显的问题:这不是一个混乱的矩阵，这是一个热图。

很可能这个热图是由标签的概率组成的，而不是标签本身(颜色的选择也是不寻常的，但这并不重要)。

好消息是，大多数以0或1作为真正标签的实例似乎都被正确地预测了( 1,1和0，0的高值)。

坏消息是标签本身存在一个问题:显然有大量的实例(我认为至少有三分之一)没有任何标签，而且被认为是“未知的”。显然，系统只是将这些“未知”实例视为第三类，因此您的标签实际上不是二进制的。它能够很好地识别这个类，但这可能是一个您应该研究的问题。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/90005

复制

相似问题

问ludwig学习模型EN