文章/答案/技术大牛

发布

社区首页 >问答首页 >标准化或标准化离散变量？

问标准化或标准化离散变量？
EN

Stack Overflow用户

提问于 2020-12-21 01:39:24

回答 2查看 509关注 0票数 0

当我们有离散变量时，例如年龄、病假数量、家庭中的孩子数量和数据帧中的缺勤数量，我想要建立一个具有二进制结果的预测模型，是否可以将这些变量与其他数值连续变量一起纳入标准化或归一化过程？

或者，我是否应该将这些离散变量归类为类别变量，并将它们转换为虚拟变量？

python

normalization

methodology

discrete

standardization

回答 2

Stack Overflow用户

发布于 2020-12-21 12:19:06

不是的。这些变量应该被视为分类变量。你可以标准化你的数值变量，然后你需要对分类变量进行分类编码。一种编码方式

pd.get_dummies(df['key'])

#and then delete one of the dummy variables, to avoid the multi-collinearity problem

使用sklearn method的另一种方法

from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder()
data = enc.fit_transform(df['key'])

只需确保只在训练样本上拟合数据即可。然后对训练集和测试集进行转换。

票数 0

Stack Overflow用户

发布于 2020-12-21 14:13:43

如果它们不是目标变量之一，则可以将这些变量与其他数值连续变量一起包括在标准化或标准化过程中。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65382855

复制

相似问题

问标准化或标准化离散变量？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问标准化或标准化离散变量？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问标准化或标准化离散变量？
EN