我在预测房屋买卖的钱。
下面是相关性大于0.3的特征的相关矩阵如下:
train_corr_full.unstack().sort_values(kind='quicksort', ascending=False).reset_index()
corr = corr[(corr['level_0'] != corr['level_1'])]
corr
level_0 level_1 0
13 pv uv 0.911879
14 uv pv 0.911879
15 area bathroom 0.721935
16 bathroom area 0.721935
17 area tradeMoney 0.687447
18 tradeMoney area 0.687447
19 bathroom tradeMoney 0.580745
20 tradeMoney bathroom 0.580745
21 bathroom room 0.421762
22 room bathroom 0.421762
23 remainNewNum totalNewTradeMoney 0.417114
24 totalNewTradeMoney remainNewNum 0.417114
25 buildYear totalFloor 0.393571
26 totalFloor buildYear 0.393571
27 remainNewNum tradeMeanPrice 0.314611
28 tradeMeanPrice remainNewNum 0.314611
corr[corr['level_0'] == 'tradeMoney']
level_0 level_1 0
18 tradeMoney area 0.687447
20 tradeMoney bathroom 0.580745
34 tradeMoney tradeMeanPrice 0.282720
45 tradeMoney totalFloor 0.249755
47 tradeMoney tradeNewMeanPrice 0.236713
55 tradeMoney room 0.215041
79 tradeMoney buildYear 0.123065
81 tradeMoney totalTradeMoney 0.122407
95 tradeMoney remainNewNum 0.100921
116 tradeMoney pv 0.072919
134 tradeMoney uv 0.040452
137 tradeMoney totalNewTradeMoney 0.038420特征描述: 区域:房子的面积。房间:这所房子的房间号。浴室:这所房子里浴室的号码。 totalFloor:这个building. tradeMeanPrice的总楼面数:本月二手房交易价格的平均价格。 tradeNewMeanPrice:本月新房成交价的平均价格。 buildYear: house. totalTradeMoney的时代:本月二手房交易价格的总价格。 totalNewTradeMoney:这个月新房子的总成交价。 remainNewNum:本月还没有售出的房屋数量。 pv:租户浏览该网站的次数。 uv:查看website.的租户数量
结果表明,pv和uv的相关性较高,但与靶区的相关性较低。
我以前做的是,我会放弃相关系数小于0.15的特征,在这些高相关性的特征中做更多的EDAs和特征工程。
而且,即使考虑上下文,我也认为pv和uv还不足以进行预测。
有人能给点提示吗?
提前谢谢。
发布于 2019-05-24 12:08:21
如果两个特性有很强的相关性,这可能意味着其中一个特性是多余的,并可能建议从您的预测模型中的特性列表中删除它。
此外,如果与目标的相关性较低,则可能需要同时删除两者。
有很多种方法,其中一种是特征选择滤波方法,或者是FCBF等算法。
在实现您的预测模型之前,您尝试了这些特性的相关性。
另一种是包装方法或嵌入式方法,它将使用您的预测模型来决定选择哪些特性。
https://datascience.stackexchange.com/questions/52040
复制相似问题