我需要用问卷的答案来训练分类器。我发现有些问题可以有嵌套的子问题。假设(仅举一个例子),我想根据以下问题预测一个人是否要买房子:
1) What is your gender?
[] male
[x] female
[] I prefer not to answer在这种情况下,答案是女性(如上面的例子),一个子问题被提问。
1_female) are you pregnant?
[x] yes
[] no然后调查问卷继续。
我应该如何利用这些特性来训练我的模型呢?
选项1)将它们分别处理,并用一次热编码来转换它们,然后我将得到特征向量。
gender_male - gender_female - gender_not_answered - pregnant_empty - pregnant_yes - pregnant_no
0 - 1 - 0 - 0 - 1 - 0显然,所有男性的特征pregnant_empty都将被编码为1。
选项2)合并2个答案并编码级联
gender_female_pregnant_yes - gender_female_pregnant_not - gender_male - gender_not_answered
1 - 0 - 0 - 0请把这个当作一个例子..。问题是在一个真实的场景中
我希望我的问题足够清楚
发布于 2018-11-13 20:59:00
最简单的方法是将您的特性保持独立,并添加一个合成特性,特征交叉,它可以捕获您提到的可以嵌套的那些特性之间的关系。
例如,在基于神经网络的分类器(如TensorFlow)中,该模型将学习那些不可能发生的特征值组合的“正确”权重(例如,男性和孕妇),明显排除错误的数据情况。
最后..。你只想要笛卡儿的产品在你需要‘交叉’的特征中。是的,你的载体会长出来。
https://datascience.stackexchange.com/questions/34415
复制相似问题