首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >二元分类问题中的数值特征和分类特征分离

二元分类问题中的数值特征和分类特征分离
EN

Data Science用户
提问于 2022-01-19 22:51:24
回答 1查看 135关注 0票数 0

我有一个包含大约9500行员工数据的数据集,必须预测目标是0还是1。我的一些特性是员工的部门、性别、薪资、review_score(数字)、每月average_number_of_hours、奖金(1或0)、员工参与的项目数量和任期。

我想问的是,项目数目(3、4、5、6)和任期(2、3、4、5、6、7、8、8、9、10、11、12)是否应被视为“类别”而不是数字。我可以按顺序做。

然而,我不确定是否将任期(员工在公司工作的年数)视为“类别”,因为有太多的价值观。

我将使用线性/逻辑算法来预测目标“1”,并试图找到最佳的特征。

有人能向我解释一下,“任期”和“项目数量”在这里是否应该被视为数字或类别,为什么?类别中的最大数目是否有普遍接受的限制?

EN

回答 1

Data Science用户

发布于 2022-01-20 07:28:04

我想把number of projectstenure视为个人数字。

一般来说,有三种数据类型:NumericalCategoricalOrdinal。它没有关于这些数据类型的地区统计定义,对我来说更像是一条经验法则。

但是从机器学习方面来说,这里的棘手之处在于,我们如何解释列并不重要。重要的是我们如何对列进行编码,这会影响估计器的度量/性能。

tenure为例,如果我们应用一个热编码,这会增加特性的数量,并且每个类别都被视为一个新列;如果我们应用标签编码,则输入是[0, N],这将改变原始列(2,3,4,5 -> 0,1,2,3)的规模。

我们可以测试不同的编码方法,做一些实验,并选择出得分最高的最佳编码方法。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/107247

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档