我的目标是像房价这样的连续价值。我正在用它训练一个回归树。我在scklearn中使用Gradientboostregressor,Python。
我的目标值(房价)呈L型分布:高端房价比低端房价高出10倍。我的回归树模型低估了高值,而高估了低值。
我能做些什么来改进模型预测?我尝试对log(价格)建模,然后对exp(预测)建模,但效果不佳。
非常感谢。
发布于 2020-05-21 04:57:52
有几件事你可以尝试一下:
1)是否有价格较高的功能?例如经度/经度、平方英尺等。
2)你的测试集有多大?它是验证集的代表吗?
此外,有许多帖子分析了美国数据中的这个确切问题。例如,kaggle的这篇文章介绍了一些有用的功能:https://www.kaggle.com/erick5/predicting-house-prices-with-machine-learning
发布于 2020-05-21 04:54:44
单个决策树通常不能很好地工作。当然,您可以尝试优化树。但我认为,如果你想处理树,最好改用随机森林或梯度提升。
https://stackoverflow.com/questions/61922639
复制相似问题