文章/答案/技术大牛

发布

社区首页 >问答首页 >Scikit学习具有随机森林的分类数据

问Scikit学习具有随机森林的分类数据
EN

Stack Overflow用户

提问于 2016-08-29 09:57:44

回答 1查看 2.5K关注 0票数 1

我正试图与泰坦尼克生存挑战在卡格尔https://www.kaggle.com/c/titanic。

我没有R方面的经验，所以我使用Python和Scikit学习随机森林分类器

我看到很多人使用scikit学习将他们对许多级别的分类转换为虚拟变量。

我不明白这样做的意义，为什么我们不能把这些级别映射成一个数值，然后用它来完成。

我还看到有人这样做:有一个分类特性Pclass具有三个级别，他为此创建了3个虚拟变量，并删除了存活率最低的变量。我也不明白这一点，我认为决策树并不关心相关的特性。

python

scikit-learn

random-forest

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-08-29 14:08:02

如果您只是将级别映射到数值，python将将您的值视为数字。也就是说，数字1<2等等，即使您的水平最初是无序的。想想“距离”问题。这个1到2之间的距离是1，1和3是2。但是你的分类变量之间的原始距离是多少呢？例如，“香蕉”“桃子”和“苹果”之间的距离是多少？你认为他们都是平等的吗？

关于虚拟变量:如果你有3个类并创建了3个虚拟变量，它们不仅仅是相关的，它们是线性相关的。这从来都不是好事。

票数 6

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/39203422

复制

相似问题

问Scikit学习具有随机森林的分类数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Scikit学习具有随机森林的分类数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Scikit学习具有随机森林的分类数据
EN