我有一个数据集,其中有几个列,例如:
总费用:平均数=3 000 000
完成百分比:平均= 50
最终利润%:平均数= 14
在拟合线性回归之前,我知道不同数量级的数据应该标准化(使用python和sklearn)。问题是,这些数据中有负面因素,我需要保留,所以我不知道应该使用哪种类型的标准化?我唯一熟悉的两种方法是日志转换和StandardScaler,我认为这两种方法都消除了负面影响。
发布于 2020-06-25 14:29:58
你可以使用正常化。归一化,你的平均值为0,标准差为1,包含正负两种值。
这里,\mu是您最初的平均值,\sigma是您的标准差。
发布于 2020-06-26 12:22:28
您仍然可以使用StandardScaler(),因为它将保留负值。如果您认为您有一些异常值,并且希望减少它们的影响,您还可以查看RobustScaler()。
https://datascience.stackexchange.com/questions/76663
复制相似问题