文章/答案/技术大牛

发布

问从调查中提取特征
EN

Data Science用户

提问于 2018-07-13 10:06:12

回答 1查看 191关注 0票数 3

我需要用问卷的答案来训练分类器。我发现有些问题可以有嵌套的子问题。假设(仅举一个例子)，我想根据以下问题预测一个人是否要买房子：

1) What is your gender?
[] male
[x] female
[] I prefer not to answer

在这种情况下，答案是女性(如上面的例子)，一个子问题被提问。

1_female) are you pregnant?
[x] yes
[] no

然后调查问卷继续。

我应该如何利用这些特性来训练我的模型呢？

选项1)将它们分别处理，并用一次热编码来转换它们，然后我将得到特征向量。

gender_male - gender_female - gender_not_answered - pregnant_empty - pregnant_yes - pregnant_no
     0      -        1      -         0           -        0       -       1      -        0

显然，所有男性的特征pregnant_empty都将被编码为1。

选项2)合并2个答案并编码级联

gender_female_pregnant_yes - gender_female_pregnant_not - gender_male - gender_not_answered
     1                     -                 0          -      0      -     0

其他选项？

请把这个当作一个例子..。问题是在一个真实的场景中

嵌套的问题可能有两个或更多的答案出现。
扩展选项2中的特性将使我的特征向量爆炸。

我希望我的问题足够清楚

machine-learning

classification

data-cleaning

feature-extraction

feature-engineering

回答 1

Data Science用户

发布于 2018-11-13 20:59:00

最简单的方法是将您的特性保持独立，并添加一个合成特性，特征交叉，它可以捕获您提到的可以嵌套的那些特性之间的关系。

例如，在基于神经网络的分类器(如TensorFlow)中，该模型将学习那些不可能发生的特征值组合的“正确”权重(例如，男性和孕妇)，明显排除错误的数据情况。

最后..。你只想要笛卡儿的产品在你需要‘交叉’的特征中。是的，你的载体会长出来。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/34415

复制

相似问题

问从调查中提取特征
EN

其他选项？

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从调查中提取特征EN

其他选项？

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从调查中提取特征
EN