我想建立一个线性回归模型来确定各种参数对报价的影响。这些引文的数据收集了10年。

Y=价格
X=系统大小(Int)、ZIP、年份、module_manufacturer、module_name、inverter_manufacturer、inverter_name、电池存储(二进制)、区域安装程序/供应商数量(Int)、installer_density、new_construction(二进制)、self_installation(二进制)、家庭密度
问题:
不幸的是,我还没有找到任何信息,可以明确地帮助我的数据。但也许我没有使用正确的搜索词。我很高兴听到任何能推动我朝正确方向前进的建议。
发布于 2021-11-25 10:51:26
假设您有一个名为data.frame的data,列价格、system_size、zip、年份、battery_storage等。那么,您可以从一个简单的线性回归开始:
lm(price ~ system_size + zip + year + battery_storage, data = data)year包含在模型中,因此您会考虑到随时间而发生的变化。如果您想删除批处理效果(例如,不同区域的邮政编码),并且只想在去掉不同位置的影响后对价格建模,则可以运行一个线性混合模型:
lmerTest::lmer(price ~ system_size + year + battery_storage + (1|zip), data = data)如果您有很高的相关性,例如,在system_size和年份之间,您可能需要在公式中包含诸如year:system_size这样的交互术语。根据经验法则,每个变量需要有10个样本才能得到合理的拟合。如果有更多内容,可以先进行变量选择。
https://stackoverflow.com/questions/70108797
复制相似问题