我想根据今年的制药数据(药品代码)、年龄、性别和今年的成本,对一组患者明年的药品成本进行建模。
我用线性回归,得到了一个R^2为0.69,这是惊人的好。当我将病人分成5组,按本年度的成本计算,我可以看到,最低的80 %表现极差,而前20%的人则以0.71的分数弥补了这一点。
80%的人的花费大约在500欧元以下,而那些成本很高的人却有高达500.000欧元的极端成本。
我认为,由于线性回归想要将残差降到最低,用相对较小的残差来预测底层成本不会带来与尽量减少高成本一样多的收益。
是否有一种替代模式,在这种情况下也能更好地预测小额成本?
发布于 2021-04-08 21:12:23
这似乎是异方差的标准情况,其中方差随预期均值增加。
有几个选择:
predictors.
泊松的方差等于均值。我们需要对连续变量使用拟泊松。伽马在均值上有方差二次型。
这些发行版通常在GLM.中实现。
此外,检查说明变量和因变量之间没有非线性关系。
例如,广义线性模型使用链接函数将预测保持在因变量分布的范围内,例如,非负值可以用指数型平均函数( link)建模。
发布于 2021-04-08 05:42:39
您需要考虑变量与模型中所需属性之间的关系。你的模型必须贯穿所有变量吗?你能在基于病人成本的决策树的基础上为两种模型安装一个决策树吗?你需要一种方式来表达这两桶不同的人。
我的直接倾向是建议一个决策树,然后是两个不同的线性回归,但这可能没有你想要的连续和封闭形式的解决方案。
为了得到一个平滑的解,你可以做一个加权线性回归,其中你惩罚一些错误较少/更多。
您还需要考虑R^2是否是最佳度量。你同样关心所有的例子吗?你在预测什么?一个例子会使另一个例子相形见绌吗?
https://stackoverflow.com/questions/66997886
复制相似问题