这里是新手。我有一个小的数据集646个样本,我已经训练了一个合理的性能模型(~99%的测试和瓦尔的准确性)。让事情变得更复杂一点的是,这些类有些不平衡。这是一个二元分类问题。
这是我对训练数据的混淆矩阵。
[[387 1]
[ 1 73]]关于测试数据:
[[74 1]
[ 0 10]]关于验证数据:
[[85 1]
[ 0 13]]我认为测试和验证的特异性很低,而训练的特异性相对较高。然而,考虑到在测试和验证数据集中只遗漏了一个样本,我的真实世界的特异性是什么?是否有更好的泛化措施?给定负样本类的大小,是否有类似于p值的东西来关联特定性的可靠性?
谢谢!
发布于 2019-03-04 23:11:10
真实世界的数据是“测试数据集”,对吗?数据必须以这样一种方式划分,即训练验证不止一次查看部分数据,而测试数据只能看到一次。从这个意义上说,如果模型足够健壮,那么即使在测试数据集中,它也会表现良好。假设测试数据尽可能接近真实世界的数据.
https://datascience.stackexchange.com/questions/46667
复制相似问题