我通过从数据集不同部分创建的许多小的xgboost模型来对客户进行分类。由于很难手动支持许多模型,所以我决定通过Hyperopt自动调整超参数,并通过Boruta进行特性选择。
你能告诉我,首先应该做什么:超参数调优还是功能选择?另一方面,这并不重要。在功能选择之后,功能的数量从2500个减少到100个(实际上,我有50个真实特性,5个分类功能通过OneHotEncoding转到2400个)。
如果需要代码,请告诉我。非常感谢。
发布于 2020-09-21 14:52:47
特征选择(FS)可以被视为预处理活动,其中,目标是识别具有低偏差和低方差1的特征。
同时,超参数优化( HPO )的主要目的是实现超参数整定过程的自动化,使用户能够有效地将机器学习( ML )模型应用于实际问题。
它减少了所需的人工工作,因为许多ML开发人员花费大量的时间来调优超参数,特别是对于具有大量hyper-parameters.的大型数据集或复杂的ML算法。
鉴于两者之间的差异,我认为FS应该首先应用于给定的算法,然后是HPO。
参考文献
1 Tsai,C.F.,Eberle,W.和Chu,C.Y.,2013年。特征和实例选择中的遗传算法。基于知识的系统,第39页,第240至247页。
2 M. Kuhn,K. Johnson应用预测建模斯普林格(2013年) ISBN: 9781461468493。
“自动机器学习:方法、系统、挑战”,9783030053185,斯普林格(2019年)。
https://stackoverflow.com/questions/62811696
复制相似问题