我有一个分类变量,国家的价值观,如印度,美国,巴基斯坦等。我目前使用线性可持续土地管理的分类任务。
所以我的国家价值从1到20不等。这应该如何成为分类任务中的一个特性。应该有一个像(1,0,0..)这样的热向量吗?对于我们和分配这个向量20权值,或者我应该有整数从1_20和分配一个权重?我用的是科学知识。答案是否取决于分类器?
发布于 2017-06-18 19:10:30
答案更多地取决于变量的性质,而不是取决于分类器。在您的情况下,一个热编码可能是最好的答案。
当变量是序数时,标签编码(用整数替换分类变量)是有用的,即它具有有序感。例如,一周或一年中的几个月。因为它们遵循固定的顺序,所以您可以将一月编码为1,二月编码为2,以此类推。分类器会在某种程度上将Feb解释为大于Jan (这对于天气预报等任务来说是可以的)。
你们的国家能被认为是有序的吗?如果不是,一个热门编码他们。
发布于 2017-06-18 21:09:35
为你所有可用的国家做个标签。您的Y(预测)值将是国家长度= no的向量。只有一个标签并改变其值将影响准确性,因为它不是线性回归问题,您需要类标签而不是值。Country1 - Country2 != Country3 - Country4
发布于 2017-06-19 16:13:03
另一种可能是按目标变量的比率来排序您的国家变量。
为了前夫。在二进制分类问题(0-1)中,您可以按多数等级的比率排序国家,然后将数字从1分配到20。这种编码允许您使用该变量进行逻辑操作。
https://datascience.stackexchange.com/questions/19814
复制相似问题