我有一个包含大约9500行员工数据的数据集,必须预测目标是0还是1。我的一些特性是员工的部门、性别、薪资、review_score(数字)、每月average_number_of_hours、奖金(1或0)、员工参与的项目数量和任期。
我想问的是,项目数目(3、4、5、6)和任期(2、3、4、5、6、7、8、8、9、10、11、12)是否应被视为“类别”而不是数字。我可以按顺序做。
然而,我不确定是否将任期(员工在公司工作的年数)视为“类别”,因为有太多的价值观。
我将使用线性/逻辑算法来预测目标“1”,并试图找到最佳的特征。
有人能向我解释一下,“任期”和“项目数量”在这里是否应该被视为数字或类别,为什么?类别中的最大数目是否有普遍接受的限制?
发布于 2022-01-20 07:28:04
我想把number of projects和tenure视为个人数字。
一般来说,有三种数据类型:Numerical、Categorical和Ordinal。它没有关于这些数据类型的地区统计定义,对我来说更像是一条经验法则。
但是从机器学习方面来说,这里的棘手之处在于,我们如何解释列并不重要。重要的是我们如何对列进行编码,这会影响估计器的度量/性能。
以tenure为例,如果我们应用一个热编码,这会增加特性的数量,并且每个类别都被视为一个新列;如果我们应用标签编码,则输入是[0, N],这将改变原始列(2,3,4,5 -> 0,1,2,3)的规模。
我们可以测试不同的编码方法,做一些实验,并选择出得分最高的最佳编码方法。
https://datascience.stackexchange.com/questions/107247
复制相似问题