我意识到所有的和尚问题都有比他们的火车大的测试集。为什么这个数据集是这样组织的?我认为这很奇怪,即使它是模型比较的虚拟数据集。
Monk1列车样本:124个测试样本: 432个
Monk2列车样本:169个测试样本: 432个
Monk3列车样本:122个测试样本: 432个
发布于 2018-01-27 23:07:16
从机器学习的角度来看,测试集有多大是绝对不重要的。为什么你会感到烦恼?现实世界看上去完全一样:你有N个标记样本供训练,但是有N*10,N*1000,N*10^9或更多的真实案例,所以每个测试集(手动标记,固定)都一定太小了。目标是拥有一个有代表性的集合,涵盖我们在现实世界中所期望的一切,如果它意味着拥有一个YUGE™测试集,那么最好的方法就是拥有一个比训练集更大的测试集。
在这个特殊的情况下(我不太熟悉这个特定的任务),你引用的网站上写着
有三个和尚的问题。所有僧侣问题的领域是相同的(下面描述)。和尚的问题之一又增加了噪音。对于每个问题,域已经被划分为一个训练和测试集。
这份文件链接如下
Wnek,J.和Michalski,R.S.,"符号学习与亚符号学习的比较:三种研究“,”机器学习:多策略方法“,第4卷,R.S. Michalski和G. Tecuci (Eds.),Morgan Kaufmann,San Mateo,CA,1993年。
第20页内容如下:

因此,在这个特定的场景中,作者选择了不同的训练条件,从而选择了三个训练集。根据
图片处理和模式识别。第5卷. Elsevier,1998年,pp 307
他们使用了所有432个可用样本进行培训,并对其中一部分数据进行了培训。
训练数据和测试数据之间的重叠被认为是一种糟糕的做法,但我凭什么来判断25年前在一个我不熟悉的领域进行的研究。也许很难获得更多的数据,并有一个干净的分裂。
https://stackoverflow.com/questions/48479952
复制相似问题