我正在H2O.ai中使用随机森林和GBM创建一个分类和回归模型。我认为我不需要对数据进行规范化(或缩放),因为这是不必要的,更有害,因为它可能会消除模型的非线性性质。请你确认一下我的理解是否正确。
发布于 2017-04-12 06:13:22
在使用H2O时,您不需要对数据做任何事情--所有算法都会自动处理数字/分类/字符串列。有些方法自动进行内部标准化,但树方法不需要也不需要(5岁以上分割,收入< 100000很好)。至于它是否“有害”取决于你在做什么,通常这是一个好主意,让算法进行标准化,除非你确切知道你在做什么。一个例子是聚类,其中距离取决于数据的缩放(或缺少)。
https://stackoverflow.com/questions/43359169
复制相似问题