我目前正在处理一个问题,其中我有一个由市场研究机构进行的调查响应基础。这项调查衡量了人们对产品服务覆盖率的看法。调查范围: 0-100。样本大小为4K。
手头的任务是找到受访者的调查响应与他们在公司的支出之间的相关性,即高感知客户的支出高,反之亦然。
我的方法是:
由于规模很大,我先把它缩小到1-10,也就是1 -10%,11-20%。以此类推。然后,我在新的规模上使用了一元线性回归并花费。
在缩放之后,我将调查规模视为连续的。
问题:
1)将比例(缩放到1 -10)连续处理的假设是对还是错?
2)是否需要规范化?当我对数据进行标准化时,系数不能被解释为美元价值,这对商业人士更有意义。如果我在不进行标准化的情况下运行分析,会有什么影响?
3)此外,在给定一个是调查响应而另一个是花费的情况下,规范化在这里是否正确?
发布于 2018-01-30 23:20:11
问题: 1)错误的通常当一个连续变量被重新编码时,它是为了使其离散。那么线性回归就不适合你的情况了。
2)进行归一化以减少数据集中异常值的影响。通过在不对数据进行标准化的情况下执行分析,您正在将您的极值作为模型的信息。
3)这取决于你之后想做什么……我想说的是,在进行数据分析时,让每件事都保持平等总是更好的。
https://stackoverflow.com/questions/48522268
复制相似问题