首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >引文数据的线性回归模型

引文数据的线性回归模型
EN

Stack Overflow用户
提问于 2021-11-25 09:39:15
回答 1查看 95关注 0票数 1

我想建立一个线性回归模型来确定各种参数对报价的影响。这些引文的数据收集了10年。

Y=价格

X=系统大小(Int)、ZIP、年份、module_manufacturer、module_name、inverter_manufacturer、inverter_name、电池存储(二进制)、区域安装程序/供应商数量(Int)、installer_density、new_construction(二进制)、self_installation(二进制)、家庭密度

问题:

  1. 什么类型的回归模型适合这个数据集?
  2. 由于技术进步,报价价格逐年下降。我怎样才能在模型中说明不同的年份?我发现了一些例子,其中年份被认为是二进制变量。另一种选择:每年的多元回归模型。有办法组合这些多模型吗?
  3. 是数据集的一种面板数据吗?

不幸的是,我还没有找到任何信息,可以明确地帮助我的数据。但也许我没有使用正确的搜索词。我很高兴听到任何能推动我朝正确方向前进的建议。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-11-25 10:51:26

假设您有一个名为data.framedata,列价格、system_size、zip、年份、battery_storage等。那么,您可以从一个简单的线性回归开始:

代码语言:javascript
复制
lm(price ~ system_size + zip + year + battery_storage, data = data)

year包含在模型中,因此您会考虑到随时间而发生的变化。如果您想删除批处理效果(例如,不同区域的邮政编码),并且只想在去掉不同位置的影响后对价格建模,则可以运行一个线性混合模型:

代码语言:javascript
复制
lmerTest::lmer(price ~ system_size + year + battery_storage + (1|zip), data = data)

如果您有很高的相关性,例如,在system_size和年份之间,您可能需要在公式中包含诸如year:system_size这样的交互术语。根据经验法则,每个变量需要有10个样本才能得到合理的拟合。如果有更多内容,可以先进行变量选择。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70108797

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档