首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >分类变量.分类

分类变量.分类
EN

Data Science用户
提问于 2017-06-18 17:24:03
回答 3查看 3.2K关注 0票数 4

我有一个分类变量,国家的价值观,如印度,美国,巴基斯坦等。我目前使用线性可持续土地管理的分类任务。

所以我的国家价值从1到20不等。这应该如何成为分类任务中的一个特性。应该有一个像(1,0,0..)这样的热向量吗?对于我们和分配这个向量20权值,或者我应该有整数从1_20和分配一个权重?我用的是科学知识。答案是否取决于分类器?

EN

回答 3

Data Science用户

回答已采纳

发布于 2017-06-18 19:10:30

答案更多地取决于变量的性质,而不是取决于分类器。在您的情况下,一个热编码可能是最好的答案。

当变量是序数时,标签编码(用整数替换分类变量)是有用的,即它具有有序感。例如,一周或一年中的几个月。因为它们遵循固定的顺序,所以您可以将一月编码为1,二月编码为2,以此类推。分类器会在某种程度上将Feb解释为大于Jan (这对于天气预报等任务来说是可以的)。

你们的国家能被认为是有序的吗?如果不是,一个热门编码他们。

票数 2
EN

Data Science用户

发布于 2017-06-18 21:09:35

为你所有可用的国家做个标签。您的Y(预测)值将是国家长度= no的向量。只有一个标签并改变其值将影响准确性,因为它不是线性回归问题,您需要类标签而不是值。Country1 - Country2 != Country3 - Country4

票数 0
EN

Data Science用户

发布于 2017-06-19 16:13:03

另一种可能是按目标变量的比率来排序您的国家变量。

为了前夫。在二进制分类问题(0-1)中,您可以按多数等级的比率排序国家,然后将数字从1分配到20。这种编码允许您使用该变量进行逻辑操作。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/19814

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档