文章/答案/技术大牛

发布

社区首页 >问答首页 >scikit学习创建虚拟变量

问scikit学习创建虚拟变量
EN

Stack Overflow用户

提问于 2014-03-17 17:15:49

回答 2查看 3.7K关注 0票数 2

在scikit-学习中，我需要哪些模型将分类变量分解为虚拟二进制字段？

例如，如果列为political-party，且值为democrat、republican和green，对于许多算法，您必须将其分解为三列，其中每一行只能容纳一个1，其余必须是0。

这避免了强制执行在离散化[democrat, republican and green] => [0, 1, 2]时不存在的普通性，因为democrat和green实际上并不“更远”，而不是另一对。

对于科学知识中的哪些算法来说，这种向虚拟变量的转换是必要的吗？对于那些不是的算法，不会有什么害处，对吧？

python

machine-learning

scikit-learn

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-03-17 19:30:56

对于科学知识中的哪些算法来说，这种向虚拟变量的转换是必要的吗？对于那些不是的算法，不会有什么害处，对吧？

所有学习算法，除了基于树的方法之外，都需要对名义分类变量进行一次热编码(也称为虚拟变量)。

对于基数很大的分类特征，使用虚拟变量可能会损害基于树的方法，特别是随机树方法，因为在特征分割采样器中引入了偏差。基于树的方法在分类特征的基本整数编码中工作得相当好。

票数 4

Stack Overflow用户

发布于 2014-03-17 17:25:44

对于任何基于向量化输入进行计算的算法(大多数算法，但我肯定有例外)，您将需要进行某种“向量化”。但是，您不必按照上面解释的方式来做。

由于大多数算法只关心给它们一系列映射到其他数字的数字，所以如果您有这样的粒度级别，通常可以用置信度替换任何二进制字段。

还值得注意的是，这些不是“虚拟变量”，而只是一个不同的表示形式。它们直接代表你的班级。要回答最后一个问题，只有当你丢弃信息时，它才会受到伤害，所以把分类转换成二进制向量是完全正确的。为了更具体地说明这一点：

['republican'] -> [0, 1, 0] # binary vectorization, totally fine

['republican', 'green'] -> [0, 0.5, 0.5] # non-binary vectorization, also totally fine

{'republican': 0.75, 'green': 0.25} -> [0, 1, 0] # information lost, not fine.

希望这能帮上忙，如果你还有什么问题请告诉我。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/22460948

复制

相似问题

问scikit学习创建虚拟变量
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问scikit学习创建虚拟变量EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问scikit学习创建虚拟变量
EN