首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Gridsearchcv:内部逻辑

Gridsearchcv:内部逻辑
EN

Stack Overflow用户
提问于 2020-11-26 22:24:25
回答 1查看 109关注 0票数 0

我想了解Gridsearchcv的逻辑是如何工作的。我查看了这里、正式的文档和源代码,但我无法理解以下内容:

Gridsearchcv背后的一般逻辑是什么?

Clarifications

  1. 如果我使用默认的cv = 5,那么输入数据的%拆分为:培训、验证和测试?
  2. Gridsearchcv多久执行一次这样的分割,以及它如何决定哪些观察属于训练/验证/测试?
  3. 既然交叉验证正在进行,那么在超参数调整中,平均值在哪里发挥作用呢?也就是说,最优的超参数值是对某种平均值进行优化的值吗?

这个问题这里和我一样担心,但我不知道最新的信息是什么,我也不确定我是否理解那里的所有信息。例如,根据“任择议定书”,我的理解是:

  • 测试集占输入数据集的25%,并且只创建一次。
  • 列车组和验证集的联合相应地创建一次,该联合值为原始数据的75%。
  • 然后,该过程创建5(因为cv = 5),将这75%进一步拆分为60%的训练和15%的验证。
  • 优化的超参数值是对这5个分块上的某个度量的平均值进行优化的值。

这一理解现在是否正确并仍然适用?最初的25%-75%是如何分割的?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-11-26 22:37:29

  1. 首先,你把你的数据分成训练和测试。对于模型的后训练和优化,没有测试集。gridsearchcv将75%的数据分割成5片。它首先训练4片并在1上验证,然后取4片引入先前遗漏的集进行验证和新集的测试等。5次。

然后可以看到每次运行的性能+它们的平均值,以了解模型的总体行为。

  1. 由于您正在执行gridsearch,所以将在建模结束时保存best_params以预测测试集。
  2. 因此,总之,在整个培训之后,您将为您的模型选择和使用最佳参数,因此,您可以很容易地将它们用于predict(X_test)

点击这里阅读更多内容。

  1. 通常,如果你不执行CV,模型将尝试优化其权重与预设的参数和遗漏的测试集,将有助于评估模型的性能。然而,对于真正的模型培训,非常重要的是将培训数据重新分割成训练和验证,在那里您使用验证来对模型的参数进行超调(手动)。然而,过度调优模型以获得最佳的验证集性能是作弊。

理论K-Folds

详细信息

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65029921

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档