我最近开始使用Kaggle,我注意到对于许多其他人编写的jupyter笔记本,当他们使用Ridge/Lasso时,他们没有标准化非分类的数字特性。我的理解是当正则化的时候标准化是最好的做法,所以在惩罚不同的系数时有某种形式的奇偶性。
为什么(表面上)对Kaggle缺乏这种标准化实践?我是不是漏掉了什么?
下面是几个例子:https://www.kaggle.com/mohaiminul101/car-price-prediction
https://www.kaggle.com/burhanykiyakoglu/predicting-house-prices/comments
老实说。我觉得我看到的大多数人使用Lasso/Ridge不做任何标准化,而且我通常只看那些最受欢迎的数据集,所以我有点惊讶。
发布于 2021-05-04 19:59:10
Kaggle是一个没有质量控制的人群源平台。预计会出现偏离最佳做法的情况。
https://datascience.stackexchange.com/questions/93581
复制相似问题