文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么Monk的问题测试集比他们的火车组大？

问为什么Monk的问题测试集比他们的火车组大？
EN

Stack Overflow用户

提问于 2018-01-27 19:56:00

回答 1查看 778关注 0票数 2

我意识到所有的和尚问题都有比他们的火车大的测试集。为什么这个数据集是这样组织的？我认为这很奇怪，即使它是模型比较的虚拟数据集。

Monk1列车样本:124个测试样本: 432个

Monk2列车样本:169个测试样本: 432个

Monk3列车样本:122个测试样本: 432个

machine-learning

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-01-27 23:07:16

从机器学习的角度来看，测试集有多大是绝对不重要的。为什么你会感到烦恼？现实世界看上去完全一样:你有N个标记样本供训练，但是有N*10，N*1000，N*10^9或更多的真实案例，所以每个测试集(手动标记，固定)都一定太小了。目标是拥有一个有代表性的集合，涵盖我们在现实世界中所期望的一切，如果它意味着拥有一个YUGE™测试集，那么最好的方法就是拥有一个比训练集更大的测试集。

在这个特殊的情况下(我不太熟悉这个特定的任务)，你引用的网站上写着

有三个和尚的问题。所有僧侣问题的领域是相同的(下面描述)。和尚的问题之一又增加了噪音。对于每个问题，域已经被划分为一个训练和测试集。

这份文件链接如下

Wnek，J.和Michalski，R.S.，"符号学习与亚符号学习的比较:三种研究“，”机器学习:多策略方法“，第4卷，R.S. Michalski和G. Tecuci (Eds.)，Morgan Kaufmann，San Mateo，CA，1993年。

第20页内容如下：

因此，在这个特定的场景中，作者选择了不同的训练条件，从而选择了三个训练集。根据

图片处理和模式识别。第5卷. Elsevier，1998年，pp 307

他们使用了所有432个可用样本进行培训，并对其中一部分数据进行了培训。

训练数据和测试数据之间的重叠被认为是一种糟糕的做法，但我凭什么来判断25年前在一个我不熟悉的领域进行的研究。也许很难获得更多的数据，并有一个干净的分裂。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48479952

复制

相似问题

问为什么Monk的问题测试集比他们的火车组大？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么Monk的问题测试集比他们的火车组大？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么Monk的问题测试集比他们的火车组大？
EN