文章/答案/技术大牛

发布

社区首页 >问答首页 >蛮力特征选择和交叉验证

问蛮力特征选择和交叉验证
EN

Data Science用户

提问于 2022-02-26 16:56:19

回答 1查看 71关注 0票数 1

有一个现有的分数由10个参数组成；每个参数的权重相等&通过对每个参数的得分之和找到总分。

我想尽量减少这个分数中的参数数，但是保持它们的加权。

我有500人的数据，得分和两个感兴趣的结果。

由于参数的数量很小，我开始用蛮力的方法来观察所有可能的参数组合，并通过两个结果的AUC来评估它们的性能。

我担心的是，产生的参数可能不是泛化的(也就是说，我太合适了)，因此，为了减轻这种情况，我想使用交叉验证。

我想我应该做10次：

随机对500人进行分类，并将其分成一组测试和训练。
利用训练集，计算出最佳参数。
使用测试集使用参数的最佳组合(从步骤2)打印两个结果的AUC

然后，选择最常用的参数组合。

这说得通吗？如果有一种完全不同的方法来进行特性选择，这对这种场景是最好的，这也是有用的！

cross-validation

grid-search

feature-selection

回答 1

Data Science用户

发布于 2022-02-27 00:24:53

我认为您的方法是有意义的，它确实是一种交叉验证，它将有助于获得更可靠的性能评估。

从技术上讲，我认为您所描述的过程是自举聚合 (或打包)：重复采样(通常使用替换)并计算测试集上的平均性能。它还具有以下几个优点：

您可以观察每次所选参数的子集，这给您一个关于子集稳定性的指示。
还可以计算性能的置信区间，而不仅仅是平均性能。

但是，使用这种方法，我建议重复这个过程10次以上，如果可能的话，尝试100次，甚至1000次。

请注意，有各种交叉验证方法可用，维基百科有一个很好的列表维基百科有一个很好的列表。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/108564

复制

相似问题

问蛮力特征选择和交叉验证
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问蛮力特征选择和交叉验证EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问蛮力特征选择和交叉验证
EN