我对所有这些都非常陌生,并且正在采取初步的步骤来学习这一切(所以请慈悲)。
我已经将csv文件导入python,如下所示:
data = pd.read_csv("sales.csv")
data.head(10)
然后在销售变量上拟合一个线性回归模型,使用结果中所示的变量作为预测因子。调查结果概述如下:
model_linear = smf.ols('sales ~ month + weekend + holiday + prod_function + prod_regime + prod_listprice + discount + stockout', data=data).fit()
print(model_linear.summary())
这是我有问题的部分。我应该如何解释和理解这一结果?例如,这说明了折扣对销售的影响吗?
发布于 2018-11-18 21:32:54
在一个简单的OLS模型中发生了很多事情。我强烈鼓励你从教科书中更多地了解它们。最好的起点之一是免费在线书统计学习概论 (参见关于回归的第3章,其中解释了模型摘要中的一些元素)。
同样在这个博客中,它们解释了由Statsmodel模型得到的模型摘要中的所有元素,如R-平方、F-统计量等(向下滚动)。blog.minitab中也有一系列的博客文章,比如关于R-平方的博客,还有关于F-检验的博客,这些文章更详细地解释了这些元素。您甚至可以探索更多,并了解关于剩余地块的后分析您的回归模型(一个重要的检查)。
请注意,您通常不需要使用所有这些元素来检查回归器模型(其中一些元素(如BIC或F)并不能提供足够的信息,除非有人明确要求它们)。
给出了很多关于每个变量的信息。每个系数都有相应的标准差,t-统计量,p-值.例如,对于每个系数,如果t-统计量很大(或简单地说,p-值为零或非常小,< 0.05),那么该系数是可信赖的,比如折扣或缺货,否则误差很大,而且不太可能像模型中的prod_function或prod_regime分类变量的一些子级别那样可靠。*只是粗略考虑一下你的模型中的这些变量,也许你对这些变量所做的分类编码不是很好,这就是为什么这里的错误很大吗?!
这是一个有趣的部分。考虑到您的模型足够好(在定义的置信区间内),您可以了解每个变量是如何对依赖变量(此处为sales)做出贡献的。了解更多关于解释回归系数或如何查看这个漂亮而简单的例子的信息。
特别是对于折扣变量,如果所有其他变量都是固定的,那么对于每一个折扣单位的变化,销售变化,平均为0.4146单位(从您的模型中的折扣系数)。
希望这些点能让你开始!
https://datascience.stackexchange.com/questions/41034
复制相似问题