关于为学习准备数据,我有几个问题。当我想要使用for相关性和分类器决策树时,我对如何将列转换为分类列和二进制列感到非常困惑。
对于NBA_df中的示例,可以使用决策树将position列转换为分类列,是否可以使用.astype('category').cat.codes将其转换为分类列?(我知道在篮球比赛中,你可以用数字1-5来表示位置。NBA_df
在students_df中,为什么使用.get_dummies将“性别”、“种族/民族”、“午餐”、“考试准备课程”列转换为新的二进制列而不是在同一列中进行分类转换会更正确?students_df
它在相关性和树上是一样的吗?
发布于 2021-06-16 06:05:28
我不确定我是否完全理解您所说的“在同一列中”是什么意思,但我假设您的意思是将位置中的分类响应替换为数字1到5,并将这些数字保留在同一列中。
假设这就是你的意思,你必须考虑计算机将如何解释输入。小前锋(篮球位置3)是控球后卫(1 *3)的3倍吗?当然不是,但计算机会这样看它。它将决定与目标的关系,这些关系是不现实的。出于这个原因,您需要像.get_dummies一样使用二进制指示符的单独列。这样,计算机将不会将位置视为可操作的数值,但会将位置视为单独的实体。
https://stackoverflow.com/questions/67993793
复制相似问题