首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何处理两个既与目标相关性又低的高相关性特征

如何处理两个既与目标相关性又低的高相关性特征
EN

Data Science用户
提问于 2019-05-16 01:50:07
回答 1查看 83关注 0票数 1

我在预测房屋买卖的钱。

下面是相关性大于0.3的特征的相关矩阵如下:

代码语言:javascript
复制
train_corr_full.unstack().sort_values(kind='quicksort', ascending=False).reset_index()
corr = corr[(corr['level_0'] != corr['level_1'])]
corr

    level_0             level_1              0
13  pv                  uv                   0.911879
14  uv                  pv                   0.911879
15  area                bathroom             0.721935
16  bathroom            area                 0.721935
17  area                tradeMoney           0.687447
18  tradeMoney          area                 0.687447
19  bathroom            tradeMoney           0.580745
20  tradeMoney          bathroom             0.580745
21  bathroom            room                 0.421762
22  room                bathroom             0.421762
23  remainNewNum        totalNewTradeMoney   0.417114
24  totalNewTradeMoney  remainNewNum         0.417114
25  buildYear           totalFloor           0.393571
26  totalFloor          buildYear            0.393571
27  remainNewNum        tradeMeanPrice       0.314611
28  tradeMeanPrice      remainNewNum         0.314611



corr[corr['level_0'] == 'tradeMoney']

    level_0     level_1             0
18  tradeMoney  area                0.687447
20  tradeMoney  bathroom            0.580745
34  tradeMoney  tradeMeanPrice      0.282720
45  tradeMoney  totalFloor          0.249755
47  tradeMoney  tradeNewMeanPrice   0.236713
55  tradeMoney  room                0.215041
79  tradeMoney  buildYear           0.123065
81  tradeMoney  totalTradeMoney     0.122407
95  tradeMoney  remainNewNum        0.100921
116 tradeMoney  pv                  0.072919
134 tradeMoney  uv                  0.040452
137 tradeMoney  totalNewTradeMoney  0.038420

特征描述: 区域:房子的面积。房间:这所房子的房间号。浴室:这所房子里浴室的号码。 totalFloor:这个building. tradeMeanPrice的总楼面数:本月二手房交易价格的平均价格。 tradeNewMeanPrice:本月新房成交价的平均价格。 buildYear: house. totalTradeMoney的时代:本月二手房交易价格的总价格。 totalNewTradeMoney:这个月新房子的总成交价。 remainNewNum:本月还没有售出的房屋数量。 pv:租户浏览该网站的次数。 uv:查看website.的租户数量

结果表明,pvuv的相关性较高,但与靶区的相关性较低。

我以前做的是,我会放弃相关系数小于0.15的特征,在这些高相关性的特征中做更多的EDAs和特征工程。

而且,即使考虑上下文,我也认为pvuv还不足以进行预测。

有人能给点提示吗?

提前谢谢。

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-05-24 12:08:21

如果两个特性有很强的相关性,这可能意味着其中一个特性是多余的,并可能建议从您的预测模型中的特性列表中删除它。

此外,如果与目标的相关性较低,则可能需要同时删除两者。

如何决定?

有很多种方法,其中一种是特征选择滤波方法,或者是FCBF等算法。

在实现您的预测模型之前,您尝试了这些特性的相关性。

另一种是包装方法或嵌入式方法,它将使用您的预测模型来决定选择哪些特性。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/52040

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档