我正在研究根据房价的类型、大小、位置等来预测房价(转售市场)的经典问题。非常简单的线性回归或回归树给出了一些不错的结果--我还处于探索阶段。
然而,我不知道如何最好地纳入今年的转售交易,因为有明显的长期趋势在过去几年。现在,我只保留它作为一个特性,这似乎是一个有效的方法。我只是想知道是否有其他方法。例如,我还必须在季度基础上进行全面的价格变动。因此,我假设我可以根据这些趋势调整每一次转售价格,而忽略了作为特征的年份。这有道理吗?
其他的方法是什么?(再说一次,我甚至不确定这是否是个问题。)
发布于 2020-12-29 11:17:56
我想你已经确定了两种主要的选择:
备选案文2将意味着你“放气”一个标准化的价格(例如,每平方米的价格)。因此,2018年、2019年和2020年的每平方米价格将“调整”到(例如)2017年的价格水平,使所有价格都是“2017年价格”。你需要一个标准化的价格(例如每平方米),因为你需要控制数据合成中可能出现的未被观察到的影响,例如当2020年平均售出的房子比2017年的平均房屋“大”的时候。本质上,你需要确保“紧缩”的价格是可比的。这可能是一个问题,例如,当市场随着时间的变化。你可以想象,购买“大”房子的意愿会随着时间的推移而改变,因此一平方米的“大”房子会随着时间的推移变得更加昂贵。仅仅通过每平方米的“平抑”(平均)价格就很难捕捉到这样的影响。
备选案文1可部分反映上述效应(S)。考虑线性回归的情况。假设你有两年时间(2019,2020),你希望随着时间的推移“控制”通胀。以价格p和sqm作为自变量的(简化的)基本模型如下:
现在您可以添加一个“年份虚拟”(=1 if year==2020):
系数\beta_2捕捉到了与2019年相比,2020年对p的平均影响。这有时被称为“固定效应”,因为与2019年相比,这个变量仅仅是2020年价格的“变动”,适用于所有水平的sqm。
如果您认为sqm与“时间”有某种联系,您也可以添加交互术语,例如:
在这个模型中,您允许进行不同的拦截(2019年和2020年),并允许在这两年内使用不同的sqm斜率。与“时间”和“sqm”的交互不同,您还可以添加和使用“大小虚拟”(例如“小”和“大”的房子)。
从本质上说,选项1提供了更多的灵活性,因为线性回归允许您“降低”模型内的价格。请注意,线性回归是一种参数化方法,因此您需要找到模型的适当参数化(就像您需要找到合适的策略来降低价格时,当您在模型之外这样做)。
使用回归树时,不需要担心模型的功能表示。线性回归的优点是所有数据都必须拟合“时间虚拟”。在回归树中,假人效应不太普遍。因此,在这种情况下,模型之外的“放气”数据值得一试。
但是,当您以较低的方差进行预测时,最终需要根据测试结果检查哪种方法最有效。
假设您有一个ID向量:
id
1 1
2 1
3 2
4 2
5 3
6 3虚拟编码如下所示:
id1 id2 id3
1 1 0 0
2 1 0 0
3 0 1 0
4 0 1 0
5 0 0 1
6 0 0 1在线性回归中,假人通常用作“对比”,例如id2与id1和id3与id1的效果,因此您可以包括虚拟人的n-1。
https://datascience.stackexchange.com/questions/87268
复制相似问题