作为大学小组项目的一部分,我们被提供了一系列24小时细胞培养的视频。许多这样的细胞(“敲除”细胞)已经被移除了一个特定的基因,这个基因在恶性肿瘤中通常是缺失或变异的。我们使用blob检测算法来识别细胞中心和半径,并进一步处理以匹配单元帧对帧来建立单独的路径,然后我们使用该算法来计算各种特征。我们的目标是训练一个二进制分类器,它可以识别出这些路径衍生特征向量中的一个潜在的癌变细胞。
我们的训练数据由免疫荧光标记的视频组成,其中敲除细胞被标记为红色,而正常或“对照”细胞标记为绿色。可以说,这些是我们的“标签”,我们两次使用blob检测算法,一次在红色通道上,一次在绿色通道上,将数据中的两个类分开。我们的测试数据将由灰色视频组成,在这些视频中不存在这种标记。
我的队友声称,将训练数据中的红色和绿色通道分开是“不公平的”,因为除了区分这两个类别之外,标记有时会使单个细胞更容易区分。这是因为细胞之间有可能有一个显著的重叠,使单个中心有点模糊。当一个敲除单元和一个控制单元重叠时,将两个通道分开将消除这种模糊性。由于只有在训练数据中才有可能分离颜色通道,因此可以说,我们的“标签”实际上不仅是识别单个细胞所属的类别,而且也是在培训数据中含蓄地添加额外信息,有时会消除重叠的模糊性。
下面是我所说的例子:

如果将红通道和绿通道分开,则blob检测算法可以很容易地恢复这两个细胞。否则,它只会看到一个。通过这种方式,颜色标签隐含地为blob检测提供了额外的信息。
我的问题是,使用培训数据中标签提供的额外信息是否可以将两个渠道分开作为培训过程的一部分?
编辑:添加插图。
发布于 2022-04-02 15:20:36
通常称为数据泄漏(https://en.wikipedia.org/wiki/Leakage_(机器)_学习) ),如果该算法在训练过程中被赋予了在测试过程中不存在的特征。数据泄漏会在训练过程中产生高性能,在测试过程中会大大降低性能。机器学习的目标往往是测试过程中的高性能,因此只对测试过程中存在的特征进行训练。
在你的例子中,用灰色视频来训练模型。
https://datascience.stackexchange.com/questions/45221
复制相似问题