问冲击计算-回归
EN

Data Science用户

提问于 2019-05-11 07:18:14

回答 1查看 44关注 0票数 1

我正在处理以下数据：

\begin{array} {|c|c|}\hline \text{user} & \text{A_PDE} & \text{B_PDE} & \text{C_PDE} & \text{D_PDE} & \text{Sales} & y_\text{pred} & \text{SSE} & \hat{y} \\ \hline 1 & 0.50 & 0.25 & 0 & 1.75 & 0 & 8.660412 & 75.00272 & 0 \\ \hline 2 & 0.00 & 0.00 & 1 & 0.00 & 0 & 4.02256 & 16.18099 & 0 \\ \hline 3 & 0.50 & 1.25 & 1 & 0.75 & 44 & 13.99656 & 900.2064 & 615.8487 \\ \hline 4 & 1.25 & 1.00 & 0 & 0.00 & 0 & 11.02223 & 121.4896 & 0 \\ \hline 5 & 0.00 & 0.75 & 0 & 1.50 & 0 & 7.240974 & 52.43171 & 0 \\ \hline \end{array}

我试图计算A_PDE、B_PDE、C_PDE、D_PDE每一个频道的影响。但是，由于大多数记录都是Sales = 0，而且我的模型预测这些记录的销量为非零，所以我的R^2值非常低。我怎么才能解决这个问题？我不认为从模型中删除零销售记录是正确的。

regression

predictive-modeling

回答 1

Data Science用户

发布于 2019-05-11 08:11:07

基于维度约简的答案:您应该考虑降低数据集的维度。有多种降低数据集维数的方法。

方差缩减:去除方差很小的变量
相关约简:删除仅与您的标准关联较弱的变量。对于此步骤，重要的是在计算相关性之前将数据集划分为培训和验证数据集，否则数据结果将受到来自验证数据集的信息的污染。
主成分分析的约简
基于特征选择的决策树约简
基于R^2的简化:排除数据集中的一个变量并计算R^2。然后排除数据集中的另一个变量并计算R^2。对所有变量重复此过程，并删除R^2减少最少或增加最多的变量。对缩减的数据集重复此过程。当所有变量的R^2更改相似时，停止。
基于p-value的缩减:确定权重并删除p-value不显着的权重。对于此过程，您必须考虑错误的累积，并应用Bonferroni校正。

基于回归方法的答案:另一种不降低维度的方法是使用加权最小二乘回归，如果你真的想要更准确地预测它们，那么对销售使用更高的权重。如果您的数据高度非线性，您也可以考虑使用非线性回归来捕捉您的模型的非线性。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/51776

复制

相似问题

问冲击计算-回归
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问冲击计算-回归EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问冲击计算-回归
EN