有一个现有的分数由10个参数组成;每个参数的权重相等&通过对每个参数的得分之和找到总分。
我想尽量减少这个分数中的参数数,但是保持它们的加权。
我有500人的数据,得分和两个感兴趣的结果。
由于参数的数量很小,我开始用蛮力的方法来观察所有可能的参数组合,并通过两个结果的AUC来评估它们的性能。
我担心的是,产生的参数可能不是泛化的(也就是说,我太合适了),因此,为了减轻这种情况,我想使用交叉验证。
我想我应该做10次:
然后,选择最常用的参数组合。
这说得通吗?如果有一种完全不同的方法来进行特性选择,这对这种场景是最好的,这也是有用的!
发布于 2022-02-27 00:24:53
我认为您的方法是有意义的,它确实是一种交叉验证,它将有助于获得更可靠的性能评估。
从技术上讲,我认为您所描述的过程是自举聚合 (或打包):重复采样(通常使用替换)并计算测试集上的平均性能。它还具有以下几个优点:
但是,使用这种方法,我建议重复这个过程10次以上,如果可能的话,尝试100次,甚至1000次。
请注意,有各种交叉验证方法可用,维基百科有一个很好的列表维基百科有一个很好的列表。
https://datascience.stackexchange.com/questions/108564
复制相似问题