我正在用一些生物实验数据训练一个人工神经网络。简单地说,我的输入数据集(特征)包括不同样本(细胞系)的基因水平(RNA表达水平)。在这个数据集中,我复制了相同的生物样本,这意味着我已经测量了两次(或更多次)相同细胞株或细胞系的RNA表达水平。我包括了所有不同的测量(不同的细胞系,同一细胞系的不同测量等等)。作为不同样本的训练集,为了增加人工神经网络的灵活性,而不是只计算平均值而仅使用(对同一细胞株的不同测量)。
我在想,我是否可以用同一细胞株的不同测量值的平均值作为我的验证测试--你认为呢?这是一个回归神经网络,标签是蛋白质结构。
发布于 2020-04-22 13:30:36
你不能那样做。
验证(和测试)集背后的关键思想是,它们必须完全由看不见的数据组成;在这里,情况并非如此,因为您的平均值所使用的数据已经在培训期间看到了。
过去有很多恐怖故事(包括研究论文!)人们天真地认为他们可以在他们的特性选择过程中包括他们的验证/测试集,只要他们不使用它们来拟合他们的模型。他们伤得很重。对于某些情况,请参阅我的博客文章如何不执行功能选择!;关于Python中关于在这种情况下可能出错的简单示例(tl;dr: everything),请参阅是否应该在列车测试拆分之前或之后进行特征选择?中的自己的答案。
第二个关键(但通常是隐含的)想法是,您的验证/测试集必须在质量上类似于您的培训数据,即理论上它们都必须来自相同的数据生成概率分布。可以说,你个人样本的分布和平均值的分布是不一样的。
https://stackoverflow.com/questions/61362451
复制相似问题