简单地说,我想利用胸部X光图像来检测患者是否患有肺癌。
我在这里面临的问题是:我有来自3个不同来源的3个数据集,其中3个主题都是胸部X光图像,假设所有其他医学属性也是相同的。第一个数据集包含130张正常和癌症诊断患者的图像。第二个数据集包含40张正常患者的图像,第三个数据集包含120张癌症患者的图像。
因此,我想组合来自3个不同来源的3个数据集来训练和评估我的模型。我打算混合和洗牌所有的数据,然后开始分裂成训练,验证,测试集。这样可以吗?
有没有其他我应该注意的东西/特征?
发布于 2019-04-15 05:18:38
据我所知,通常情况下,混合数据集不是一件好事,特别是当数据集彼此不是很相似的时候。然而,在你的案例中,你说所有这些都是人类肺部的X射线图像。我们希望所有的图像都非常相似,所以混合它们不会以一种不好的方式影响性能,但我想是以一种好的方式。
在深度学习领域,拥有大量的数据总是很好的。尤其是大型神经网络需要大量的数据。你的数据对我来说似乎更少了。我建议你使用简单的网络。
简而言之,是不是所有的图片都来自同一个来源?也就是说,它们在总体上是相似的,但只是在有感染的地方不同?如果是这样的话,请继续。
祝好运
https://stackoverflow.com/questions/55678252
复制相似问题