我是数据科学和统计学的新手。我遇到了这个问题,它有50个自变量和一个因变量,并试图找出一个很好的回归技术。下面是我执行的流程图:
数据挖掘->相关矩阵->维数约简-> (维数约简) ->基本线性回归技术。
如果有其他更好的技术或程序,有人能指导我吗?
发布于 2018-11-07 06:10:53
这绝不是一个详尽的答案,但它肯定会给你一个Python的起点-
从Pandas Profiling开始。它将为您提供变量的HTML报告。如果数据质量良好,它将提供一些关于填充率的见解,这取决于变量类型--每个变量的一些统计数据。
熊猫分析报告中包含了相关矩阵。但是,如果您希望手工计算,请使用pd.corr()。您可以改变参数以获得不同的相关指标,如‘pearson’, ‘kendall’, ‘spearman’。
有很多方法可以做到这一点。记住,如果您只是在寻找精确性,而不关心X是如何影响y的,那么(1)是一个可选的步骤(也适用于(2) )。
VIF对高相关变量进行转储0或0的系数可以被认为是弱指标,可以被消除。https://datascience.stackexchange.com/questions/40843
复制相似问题