对于分类型数据的编码,我们通常会使用两种方式来实现,分别是:one-hot encoding 和 label-encoding。下面我们先介绍一下这两种编码。 Label encoding label-encoding就是用标签进行编码的意思,即我们给特征变量自定义数字标签,量化特征。
这是一种将类别编码为数字的方法,就像One-hot或Label-encoding一样,但和这种两种方法不同的地方在于target encoding还使用目标来创建编码,这就是我们所说的有监督特征工程方法
('Exterior2nd', 16), ('Neighborhood', 25)] # 种数较多的不宜用one-hot, # 数据集扩大的很厉害,可以label-encoding,或丢弃
一般先用此方法将字符型数据转换为数值型,然后再用以下两种方法编码; get_dummies :pandas 方法,处理DataFrame 数据更便捷 OneHotEncoder :更普遍的编码方法 LabelEncoder️ label-encoding
Label-Encoding, One-Hot-Encoder 编码区别 Categorical encoding using Label-Encoding and One-Hot-Encoder #