在MNIST数据集中,您有10个已定义的类,每个数字一个。但你没有“没有数字”的课程。似乎大多数图像分类数据集是相同的。但是在业务设置中,对于生产模型,您肯定会得到与任何定义的类不相对应的无效映像。
假设你要创建一个手写体数字图像分类模型,用于一个现实世界的项目。如果你没有一个“不是数字”类,那么如果有人提交了字母"M“的图片,那么它将被错误地归类为10个数字类之一。
因此,在本例中,您是否应该定义一个“非数字”类,并将模型训练在一组与手写数字无关的图像上,这些图像可能与手写数字无关,从而将无效图像正确地归类为“非数字”?
发布于 2018-04-08 11:51:15
你可以拿着,但我推荐你的案子还有别的东西。假设您有10类数字,它们是相互排斥的。因此,输出矢量将始终处于热编码状态.在简单的情况下,输出向量应该包含每个类的10个条目。要使您的模型区分数字输入和非数字输入,请执行以下操作:
将输出的大小增加到11。提供包含11个条目标签的数据集。第一个条目对应于一个数字的存在。如果它是一个数字,第一个条目应该是一个,接下来的10个条目应该根据数字的值被激活。所以,你的标签不会是一个热编码。如果输入不是一个数字,输出的第一个条目应该是零,而其他条目则不关心。
https://datascience.stackexchange.com/questions/30032
复制相似问题