首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >验证测试--它可以是训练集的平均值吗?

验证测试--它可以是训练集的平均值吗?
EN

Stack Overflow用户
提问于 2020-04-22 10:10:03
回答 1查看 50关注 0票数 0

我正在用一些生物实验数据训练一个人工神经网络。简单地说,我的输入数据集(特征)包括不同样本(细胞系)的基因水平(RNA表达水平)。在这个数据集中,我复制了相同的生物样本,这意味着我已经测量了两次(或更多次)相同细胞株或细胞系的RNA表达水平。我包括了所有不同的测量(不同的细胞系,同一细胞系的不同测量等等)。作为不同样本的训练集,为了增加人工神经网络的灵活性,而不是只计算平均值而仅使用(对同一细胞株的不同测量)。

我在想,我是否可以用同一细胞株的不同测量值的平均值作为我的验证测试--你认为呢?这是一个回归神经网络,标签是蛋白质结构。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-04-22 13:30:36

你不能那样做。

验证(和测试)集背后的关键思想是,它们必须完全由看不见的数据组成;在这里,情况并非如此,因为您的平均值所使用的数据已经在培训期间看到了。

过去有很多恐怖故事(包括研究论文!)人们天真地认为他们可以在他们的特性选择过程中包括他们的验证/测试集,只要他们不使用它们来拟合他们的模型。他们伤得很重。对于某些情况,请参阅我的博客文章如何不执行功能选择!;关于Python中关于在这种情况下可能出错的简单示例(tl;dr: everything),请参阅是否应该在列车测试拆分之前或之后进行特征选择?中的自己的答案。

第二个关键(但通常是隐含的)想法是,您的验证/测试集必须在质量上类似于您的培训数据,即理论上它们都必须来自相同的数据生成概率分布。可以说,你个人样本的分布和平均值的分布是不一样的。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61362451

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档