我针对我的问题训练了多个模型,大多数集成算法都会导致长的拟合和训练时间以及磁盘上巨大的模型大小(对于RandomForest来说大约是10 1MB),但是当我尝试滑雪板组织学研究时,fit和训练时间仅为10秒左右,模型大小也很低(大约1MB),并有相当准确的预测。当我看到基于直方图的方法时,我正在尝试GradientBoostRegressors。在时间和内存复杂度方面,它优于其他算法。据我所知,这是基于微软的LightGBM,梯度提升优化了时间和内存,但我想知道为什么它更快(用更简单的英语比在文档中解释)和低内存?如果你能发布一些更好地解释这一点的资源,也会有所帮助。
发布于 2021-06-27 14:24:24
如果您还没有看到这个方法的用户指南部分,那么这里的解释是非常好的:
这些快速估计器首先将输入样本
X放入整数值桶(通常为256个桶),这极大地减少了要考虑的分裂点数,并允许该算法在构建树时利用基于整数的数据结构(直方图)而不是依赖排序的连续值。
在通常的树构造算法中,对于一个连续的特征,考虑了连续数据值之间的每个分裂点。通过二进制化,分离候选的数量大大减少(对于具有连续特性的大型数据集而言)。内存需求也减少了,因为实际的特性值并不总是需要的,只是计数(和其他统计数据?)在垃圾桶里。
https://datascience.stackexchange.com/questions/96542
复制相似问题