我目前正在为一个数据集创建和评估几个模型。
因为我对R比较熟悉,并且像tidymodel工作流一样,所以我使用tidymodels和tune来为例如lightgbm模型寻找最优的超参数。
但是,由于数据集非常大,而且R不像python那样具有性能,所以我使用完整数据的示例来完成此操作。
一旦获得了最优参数,我能用这些参数来训练python中完整数据的最终模型吗?
我看不出为什么不这样做,但我不确定我是不是忽略了什么。
发布于 2022-07-28 09:34:49
如果在Python中重新训练的模型使用不同的数据,那么“最优”的超参数可能是不同的。所有的超参数都可能不受数据大小的影响。较大的数据可能包含更多的噪声/信号或不同的噪声/信号。
我猜--如果你的样本是来自较大数据的随机样本,并且你已经训练了多个样本,并且超参数是一致的,那么你可能已经接近了。
而且,取决于您的用例,“最优”可能真的意味着足够好。从预测中得出的业务决策可能不会通过稍微“更好”的模型来改进。您可以使用抽样的超参数,训练完整的数据,检查从预测中做出的决定,然后从那里开始。
https://datascience.stackexchange.com/questions/113024
复制相似问题