首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >蛮力特征选择和交叉验证

蛮力特征选择和交叉验证
EN

Data Science用户
提问于 2022-02-26 16:56:19
回答 1查看 71关注 0票数 1

有一个现有的分数由10个参数组成;每个参数的权重相等&通过对每个参数的得分之和找到总分。

我想尽量减少这个分数中的参数数,但是保持它们的加权。

我有500人的数据,得分和两个感兴趣的结果。

由于参数的数量很小,我开始用蛮力的方法来观察所有可能的参数组合,并通过两个结果的AUC来评估它们的性能。

我担心的是,产生的参数可能不是泛化的(也就是说,我太合适了),因此,为了减轻这种情况,我想使用交叉验证。

我想我应该做10次:

  1. 随机对500人进行分类,并将其分成一组测试和训练。
  2. 利用训练集,计算出最佳参数。
  3. 使用测试集使用参数的最佳组合(从步骤2)打印两个结果的AUC

然后,选择最常用的参数组合。

这说得通吗?如果有一种完全不同的方法来进行特性选择,这对这种场景是最好的,这也是有用的!

EN

回答 1

Data Science用户

发布于 2022-02-27 00:24:53

我认为您的方法是有意义的,它确实是一种交叉验证,它将有助于获得更可靠的性能评估。

从技术上讲,我认为您所描述的过程是自举聚合 (或打包):重复采样(通常使用替换)并计算测试集上的平均性能。它还具有以下几个优点:

  • 您可以观察每次所选参数的子集,这给您一个关于子集稳定性的指示。
  • 还可以计算性能的置信区间,而不仅仅是平均性能。

但是,使用这种方法,我建议重复这个过程10次以上,如果可能的话,尝试100次,甚至1000次。

请注意,有各种交叉验证方法可用,维基百科有一个很好的列表维基百科有一个很好的列表

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/108564

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档