文章/答案/技术大牛

发布

社区首页 >问答首页 >当使用随机森林时，在scikit-learn中表示因子变量的方法是什么？

问当使用随机森林时，在scikit-learn中表示因子变量的方法是什么？
EN

Stack Overflow用户

提问于 2013-05-10 18:42:33

回答 2查看 3.1K关注 0票数 4

我正在使用随机森林解决一个分类问题。为此，我决定使用Python库scikit-learn。但是我对随机森林算法和这个工具都是新手。我的数据包含许多因子变量。我在谷歌上搜索了一下，发现像我们在线性回归中那样给因子变量赋予数值是不正确的，因为它会将其视为连续变量并给出错误的结果。但是我在scikit-learn中找不到任何关于如何处理因子变量的东西。请告诉我要使用的选项，或者告诉我可以在哪里获得它的文档。

scikit-learn

text-mining

random-forest

回答 2

Stack Overflow用户

发布于 2014-08-16 05:16:14

如果您使用的是pandas数据框，则可以很容易地使用get_dummies函数来完成此操作。下面是一个例子：

import pandas as pd

my_data = [['a','b'],['b','a'],['c','b'],['d','a'],['a','c']]
df = pd.DataFrame(my_data, columns = ['var1','var2'])
dummy_ranks = pd.get_dummies(df['var1'], prefix = 'var1_')
print dummy_ranks

   var1__a  var1__b  var1__c  var1__d
0        1        0        0        0
1        0        1        0        0
2        0        0        1        0
3        0        0        0        1
4        1        0        0        0

[5 rows x 4 columns]

票数 11

Stack Overflow用户

发布于 2013-05-10 20:42:22

你应该使用sklearn的OneHotEncoder。它所做的是为分类整数特征中的每个不同值创建一个新变量。

例如，如果你有值为[10, 25, 30]的变量var，它将创建三个新的变量(即3列的矩阵)，本质上是使用变量var_10，var_25和var_30，值分别为[1, 0, 0]，[0, 1, 0]和[0, 0, 1]。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16480497

复制

相似问题

问当使用随机森林时，在scikit-learn中表示因子变量的方法是什么？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当使用随机森林时，在scikit-learn中表示因子变量的方法是什么？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当使用随机森林时，在scikit-learn中表示因子变量的方法是什么？
EN