首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >冲击计算-回归

冲击计算-回归
EN

Data Science用户
提问于 2019-05-11 07:18:14
回答 1查看 44关注 0票数 1

我正在处理以下数据:

\begin{array} {|c|c|}\hline \text{user} & \text{A_PDE} & \text{B_PDE} & \text{C_PDE} & \text{D_PDE} & \text{Sales} & y_\text{pred} & \text{SSE} & \hat{y} \\ \hline 1 & 0.50 & 0.25 & 0 & 1.75 & 0 & 8.660412 & 75.00272 & 0 \\ \hline 2 & 0.00 & 0.00 & 1 & 0.00 & 0 & 4.02256 & 16.18099 & 0 \\ \hline 3 & 0.50 & 1.25 & 1 & 0.75 & 44 & 13.99656 & 900.2064 & 615.8487 \\ \hline 4 & 1.25 & 1.00 & 0 & 0.00 & 0 & 11.02223 & 121.4896 & 0 \\ \hline 5 & 0.00 & 0.75 & 0 & 1.50 & 0 & 7.240974 & 52.43171 & 0 \\ \hline \end{array}

我试图计算A_PDEB_PDEC_PDED_PDE每一个频道的影响。但是,由于大多数记录都是Sales = 0,而且我的模型预测这些记录的销量为非零,所以我的R^2值非常低。我怎么才能解决这个问题?我不认为从模型中删除零销售记录是正确的。

EN

回答 1

Data Science用户

发布于 2019-05-11 08:11:07

基于维度约简的答案:您应该考虑降低数据集的维度。有多种降低数据集维数的方法。

  • 方差缩减:去除方差很小的变量
  • 相关约简:删除仅与您的标准关联较弱的变量。对于此步骤,重要的是在计算相关性之前将数据集划分为培训和验证数据集,否则数据结果将受到来自验证数据集的信息的污染。
  • 主成分分析的约简
  • 基于特征选择的决策树约简
  • 基于R^2的简化:排除数据集中的一个变量并计算R^2。然后排除数据集中的另一个变量并计算R^2。对所有变量重复此过程,并删除R^2减少最少或增加最多的变量。对缩减的数据集重复此过程。当所有变量的R^2更改相似时,停止。
  • 基于p-value的缩减:确定权重并删除p-value不显着的权重。对于此过程,您必须考虑错误的累积,并应用Bonferroni校正。

基于回归方法的答案:另一种不降低维度的方法是使用加权最小二乘回归,如果你真的想要更准确地预测它们,那么对销售使用更高的权重。如果您的数据高度非线性,您也可以考虑使用非线性回归来捕捉您的模型的非线性。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/51776

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档