我正在学习一个关于使用logistic回归建立模型的教程。在本教程中,具有数值数据类型和级别3的列被使用as.factor函数转换为因子。我想知道这种转变的原因。
发布于 2018-05-05 16:35:57
如果以这种形式保留少量唯一值的类-“数值”向量,则逻辑回归,即glm( form, family="binomial", ...),将返回一个系数。通常,这不是数据所支持的,所以本教程的作者建议将这些向量转换为因子,以便glm函数对分类值的默认处理。有可能这些作者已经知道了一个事实,即底层的数据收集过程已经用数字级别对分类数据进行了编码,并且数据输入过程没有“被告知”作为绝对处理。可以使用colClasses参数对使用的任何read.*函数执行此操作。
大多数R回归例程对因素的默认处理使用第一级作为基线(Intercept)估计的一部分,并估计其他每个级别的系数。如果你把这个向量作为数字,你就会得到一个估计,这个估计可以被解释为序数变量的作用的斜率。与顺序关系编码相关的统计测试通常被称为“趋势的线性检验”,当“真实世界”中的数据情况被解释为序数关系时,有时是有用的结果。
https://stackoverflow.com/questions/50191134
复制相似问题