我有三个不同的数据集,其中三个都是用同样的化学物质染色的血涂片图像。血涂片图像是捕捉你的血液的图像,包括红血球,白血球。
第一个数据集包含2个类别:正常与血癌,第二个数据集包含2个类别:正常与血液感染,第三个数据集包含2个类别:正常与镰状细胞疾病
所以,我想做的是:当我输入一张血涂片图像时,AI系统会告诉我它是正常的,还是血癌、血液感染或镰状细胞病(4类分类任务)。
我该怎么办?
我是否应该混合这3个数据集,并仅训练1个模型来检测4个类?
或者我应该训练3个不同的模型,然后将它们组合在一起?如果是,我应该使用什么方法组合?
更新:我搜索了一段时间。这项任务可以被称为“学习而不遗忘吗?”
发布于 2019-05-27 02:58:18
我认为这取决于数据。
您可以使用三个不同的模型,并对每个图像进行三个二进制预测。所以你得到了每个x对正常的投票(概率)。如果二进制分类是准确的,这应该会提供良好的结果。但在这种情况下,你会得到一个累积的错误分类或错误。
如果你负担得起,你可以训练一个四类模型,并将测试误差与一系列二进制分类进行比较。我知道你们已经有三个型号了。因此,培训另一个人可能不会太贵。
如果只有一个类可以出现,那么四个类模型可能是可行的。如果实际上两个(或更多)类可以同时出现,那么一系列的二进制分类将是有意义的。
发布于 2019-05-27 03:23:48
正如@Peter所说,它完全依赖于数据。如果4个类别的图像,即正常,血癌,血液感染,镰状细胞疾病,很容易用肉眼区分,并且所有类别之间没有混淆的范围,那么你应该简单地选择1个模型,它给出了所有4个类别的概率(如@maxi marufo所提到的)。如果类之间有混淆,图像不能用肉眼区分,或者类之间有很多混淆的范围,那么你应该使用3个不同的模型,但然后你将需要。假设p1(正常)和p1(c1),p2(正常)和p2(c2),p3(正常)和p3(c3),您只需从所有3个模型获得预测概率。现在您可以平均(p1(正常),p2(正常),p3(正常)),并使用p(正常),p1(c1),p2(c2),p3(c3)的softmax。在您可以尝试的多种方法中,上述方法可能是其中之一。
发布于 2019-05-27 02:57:46
这是一个多类分类问题。你可以只训练一个模型,最后一层是4个单元的全连接(密集)层(即输出维度)和softmax激活函数。
https://stackoverflow.com/questions/56316396
复制相似问题