问验证测试--它可以是训练集的平均值吗？
EN

Stack Overflow用户

提问于 2020-04-22 10:10:03

回答 1查看 50关注 0票数 0

我正在用一些生物实验数据训练一个人工神经网络。简单地说，我的输入数据集(特征)包括不同样本(细胞系)的基因水平(RNA表达水平)。在这个数据集中，我复制了相同的生物样本，这意味着我已经测量了两次(或更多次)相同细胞株或细胞系的RNA表达水平。我包括了所有不同的测量(不同的细胞系，同一细胞系的不同测量等等)。作为不同样本的训练集，为了增加人工神经网络的灵活性，而不是只计算平均值而仅使用(对同一细胞株的不同测量)。

我在想，我是否可以用同一细胞株的不同测量值的平均值作为我的验证测试--你认为呢？这是一个回归神经网络，标签是蛋白质结构。

validation

machine-learning

neural-network

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-04-22 13:30:36

你不能那样做。

验证(和测试)集背后的关键思想是，它们必须完全由看不见的数据组成；在这里，情况并非如此，因为您的平均值所使用的数据已经在培训期间看到了。

过去有很多恐怖故事(包括研究论文！)人们天真地认为他们可以在他们的特性选择过程中包括他们的验证/测试集，只要他们不使用它们来拟合他们的模型。他们伤得很重。对于某些情况，请参阅我的博客文章如何不执行功能选择！；关于Python中关于在这种情况下可能出错的简单示例(tl;dr: everything)，请参阅是否应该在列车测试拆分之前或之后进行特征选择？中的自己的答案。

第二个关键(但通常是隐含的)想法是，您的验证/测试集必须在质量上类似于您的培训数据，即理论上它们都必须来自相同的数据生成概率分布。可以说，你个人样本的分布和平均值的分布是不一样的。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61362451

复制

相似问题

问验证测试--它可以是训练集的平均值吗？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问验证测试--它可以是训练集的平均值吗？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问验证测试--它可以是训练集的平均值吗？
EN