首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从调查中提取特征

从调查中提取特征
EN

Data Science用户
提问于 2018-07-13 10:06:12
回答 1查看 191关注 0票数 3

我需要用问卷的答案来训练分类器。我发现有些问题可以有嵌套的子问题。假设(仅举一个例子),我想根据以下问题预测一个人是否要买房子:

代码语言:javascript
复制
1) What is your gender?
[] male
[x] female
[] I prefer not to answer

在这种情况下,答案是女性(如上面的例子),一个子问题被提问。

代码语言:javascript
复制
1_female) are you pregnant?
[x] yes
[] no

然后调查问卷继续。

我应该如何利用这些特性来训练我的模型呢?

选项1)将它们分别处理,并用一次热编码来转换它们,然后我将得到特征向量。

代码语言:javascript
复制
gender_male - gender_female - gender_not_answered - pregnant_empty - pregnant_yes - pregnant_no
     0      -        1      -         0           -        0       -       1      -        0

显然,所有男性的特征pregnant_empty都将被编码为1。

选项2)合并2个答案并编码级联

代码语言:javascript
复制
gender_female_pregnant_yes - gender_female_pregnant_not - gender_male - gender_not_answered
     1                     -                 0          -      0      -     0

其他选项?

请把这个当作一个例子..。问题是在一个真实的场景中

  • 嵌套的问题可能有两个或更多的答案出现。
  • 扩展选项2中的特性将使我的特征向量爆炸。

我希望我的问题足够清楚

EN

回答 1

Data Science用户

发布于 2018-11-13 20:59:00

最简单的方法是将您的特性保持独立,并添加一个合成特性,特征交叉,它可以捕获您提到的可以嵌套的那些特性之间的关系。

例如,在基于神经网络的分类器(如TensorFlow)中,该模型将学习那些不可能发生的特征值组合的“正确”权重(例如,男性和孕妇),明显排除错误的数据情况。

最后..。你只想要笛卡儿的产品在你需要‘交叉’的特征中。是的,你的载体会长出来。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/34415

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档