文章/答案/技术大牛

发布

社区首页 >问答首页 >二元分类问题中的数值特征和分类特征分离

问二元分类问题中的数值特征和分类特征分离
EN

Data Science用户

提问于 2022-01-19 22:51:24

回答 1查看 135关注 0票数 0

我有一个包含大约9500行员工数据的数据集，必须预测目标是0还是1。我的一些特性是员工的部门、性别、薪资、review_score(数字)、每月average_number_of_hours、奖金(1或0)、员工参与的项目数量和任期。

我想问的是，项目数目(3、4、5、6)和任期(2、3、4、5、6、7、8、8、9、10、11、12)是否应被视为“类别”而不是数字。我可以按顺序做。

然而，我不确定是否将任期(员工在公司工作的年数)视为“类别”，因为有太多的价值观。

我将使用线性/逻辑算法来预测目标“1”，并试图找到最佳的特征。

有人能向我解释一下，“任期”和“项目数量”在这里是否应该被视为数字或类别，为什么？类别中的最大数目是否有普遍接受的限制？

categorical-data

categorical-encoding

binary-classification

numerical

scikit-learn

回答 1

Data Science用户

发布于 2022-01-20 07:28:04

我想把number of projects和tenure视为个人数字。

一般来说，有三种数据类型：Numerical、Categorical和Ordinal。它没有关于这些数据类型的地区统计定义，对我来说更像是一条经验法则。

但是从机器学习方面来说，这里的棘手之处在于，我们如何解释列并不重要。重要的是我们如何对列进行编码，这会影响估计器的度量/性能。

以tenure为例，如果我们应用一个热编码，这会增加特性的数量，并且每个类别都被视为一个新列；如果我们应用标签编码，则输入是[0, N]，这将改变原始列(2,3,4,5 -> 0,1,2,3)的规模。

我们可以测试不同的编码方法，做一些实验，并选择出得分最高的最佳编码方法。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/107247

复制

相似问题

问二元分类问题中的数值特征和分类特征分离
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问二元分类问题中的数值特征和分类特征分离EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问二元分类问题中的数值特征和分类特征分离
EN