文章/答案/技术大牛

发布

社区首页 >问答首页 >我必须对训练和测试数据集分别进行一次热编码吗？

问我必须对训练和测试数据集分别进行一次热编码吗？
EN

Stack Overflow用户

提问于 2019-04-05 05:29:53

回答 1查看 14K关注 0票数 7

我正在处理一个分类问题，我已经将我的数据分成了训练集和测试集。

我只有很少的分类列(大约4-6列)，我正在考虑使用pd.get_dummies将我的分类值转换为OneHotEncoding。

我的问题是，对于训练和测试拆分，我必须单独执行OneHotEncoding吗？如果是这样的话，我想我最好使用sklearn OneHotEncoder，因为它支持拟合和变换方法，对吧？

train-test-split

python

machine-learning

one-hot-encoding

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-04-05 06:27:45

通常，您希望将测试集视为在训练期间没有它。在做出预测之前，您对训练集所做的任何转换都应该在测试集上完成。因此，是的，您应该单独进行转换，但要知道您正在应用相同的转换。

例如，如果测试集缺少其中一个类别，那么对于缺少的类别(可以在训练集中找到)，仍然应该有一个虚拟变量，因为您训练的模型仍然会期望该虚拟变量。如果测试集有一个额外的类别，这可能应该用一些“其他”类别来处理。

类似地，当缩放连续变量为[0,1]时，您可以在缩放测试集时使用训练集的范围。这可能意味着新缩放的测试变量在[0,1]之外。

为了完整起见，下面是one-hot编码可能的样子：

import pandas as pd
from sklearn.preprocessing import OneHotEncoder

### Correct
train = pd.DataFrame(['A', 'B', 'A', 'C'])
test = pd.DataFrame(['B', 'A', 'D'])

enc = OneHotEncoder(handle_unknown = 'ignore')
enc.fit(train)

enc.transform(train).toarray()
#array([[1., 0., 0.],
#       [0., 1., 0.],
#       [1., 0., 0.],
#       [0., 0., 1.]])

enc.transform(test).toarray()
#array([[0., 1., 0.],
#       [1., 0., 0.],
#       [0., 0., 0.]])


### Incorrect
full = pd.concat((train, test))

enc = OneHotEncoder(handle_unknown = 'ignore')
enc.fit(full)

enc.transform(train).toarray()
#array([[1., 0., 0., 0.],
#       [0., 1., 0., 0.],
#       [1., 0., 0., 0.],
#       [0., 0., 1., 0.]])

enc.transform(test).toarray()
#array([[0., 1., 0., 0.],
#       [1., 0., 0., 0.],
#       [0., 0., 0., 1.]])

注意，对于不正确的方法，有一个额外的D列(它只出现在测试集中)。在培训期间，我们根本不了解D，所以不应该有一个专栏来介绍它。

票数 28

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55525195

复制

相似问题

问我必须对训练和测试数据集分别进行一次热编码吗？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我必须对训练和测试数据集分别进行一次热编码吗？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我必须对训练和测试数据集分别进行一次热编码吗？
EN