文章/答案/技术大牛

发布

社区首页 >问答首页 >具有小值和极值的多点数据集线性回归的替代方案

问具有小值和极值的多点数据集线性回归的替代方案
EN

Stack Overflow用户

提问于 2021-04-08 05:37:00

回答 2查看 234关注 0票数 0

我想根据今年的制药数据(药品代码)、年龄、性别和今年的成本，对一组患者明年的药品成本进行建模。

我用线性回归，得到了一个R^2为0.69，这是惊人的好。当我将病人分成5组，按本年度的成本计算，我可以看到，最低的80 %表现极差，而前20%的人则以0.71的分数弥补了这一点。

80%的人的花费大约在500欧元以下，而那些成本很高的人却有高达500.000欧元的极端成本。

我认为，由于线性回归想要将残差降到最低，用相对较小的残差来预测底层成本不会带来与尽量减少高成本一样多的收益。

是否有一种替代模式，在这种情况下也能更好地预测小额成本？

statistics

linear-regression

statsmodels

outliers

回答 2

Stack Overflow用户

回答已采纳

发布于 2021-04-08 21:12:23

这似乎是异方差的标准情况，其中方差随预期均值增加。

有几个选择：

predictors.

transform (
)使用WLS，并根据预测值或因变量(如log(y) )使用权值，并估计对数正态模型
使用平均方差增加的分布。

泊松的方差等于均值。我们需要对连续变量使用拟泊松。伽马在均值上有方差二次型。

这些发行版通常在GLM.中实现。

此外，检查说明变量和因变量之间没有非线性关系。

例如，广义线性模型使用链接函数将预测保持在因变量分布的范围内，例如，非负值可以用指数型平均函数( link)建模。

票数 1

Stack Overflow用户

发布于 2021-04-08 05:42:39

您需要考虑变量与模型中所需属性之间的关系。你的模型必须贯穿所有变量吗？你能在基于病人成本的决策树的基础上为两种模型安装一个决策树吗？你需要一种方式来表达这两桶不同的人。

我的直接倾向是建议一个决策树，然后是两个不同的线性回归，但这可能没有你想要的连续和封闭形式的解决方案。

为了得到一个平滑的解，你可以做一个加权线性回归，其中你惩罚一些错误较少/更多。

您还需要考虑R^2是否是最佳度量。你同样关心所有的例子吗？你在预测什么？一个例子会使另一个例子相形见绌吗？

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/66997886

复制

相似问题

问具有小值和极值的多点数据集线性回归的替代方案
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问具有小值和极值的多点数据集线性回归的替代方案EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问具有小值和极值的多点数据集线性回归的替代方案
EN