首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么随机森林回归预测完全相同的值?

为什么随机森林回归预测完全相同的值?
EN

Stack Overflow用户
提问于 2020-12-12 02:10:21
回答 1查看 233关注 0票数 0

我正在尝试使用Scikit-Learn的随机森林回归器从实际GDP预测名义GDP。

我从一个网站上读了一些数据,然后整理了一下,然后用我预测的未来三年的实际GDP合成了一个数据框架。

我有以下代码:

代码语言:javascript
复制
from sklearn.ensemble import RandomForestRegressor

gdp = pd.read_html('https://www.thebalance.com/us-gdp-by-year-3305543')[0]
gdp.columns = gdp.iloc[0]
gdp = gdp[1:]

gdp['Year'] = gdp['Year'].astype(int)

gdp['Nominal GDP (trillions)'] = gdp['Nominal GDP (trillions)'].str.replace(',', '.').str.replace('$', '').astype(float)
gdp['Real GDP (trillions)'] = gdp['Real GDP (trillions)'].str.replace(',', '.').str.replace('$', '').astype(float)

X = pd.DataFrame(gdp['Real GDP (trillions)'].copy())
y = pd.DataFrame(gdp['Nominal GDP (trillions)'].copy())


X_pred = pd.DataFrame(data = [18.313, 18.960, 19.643], columns = ['Real GDP (trillions)'])

reg = RandomForestRegressor(n_estimators = 300)
reg.fit(X, y.values.ravel())

y_pred = reg.predict(X_pred)

它返回以下预测:1|2|3-|-|- 19.72172 | 21.05464667 | 21.05464667

为什么第二个和第三个预测是相同的?即使我将X_pred值更改为类似于[18.313, 18.960, 39.643]的值,也会发生这种情况

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-12-12 17:58:50

在训练数据中,只有一个值> 18.960:

代码语言:javascript
复制
X[X.values>18.960]

    Real GDP (trillions)
91  19.092

因此,您最终得到的值不太可能拆分为18.960和19.643,或者18.960和39.643。它不是线性回归,在这里你可以插值。

我们可以检查每棵树的阈值:

代码语言:javascript
复制
thres = np.unique([j for i in reg.estimators_ for j in i.tree_.threshold])
np.sort(thres)[-10:]

array([17.80000019, 17.9375    , 18.00199986, 18.05999947, 18.20950031,
       18.26199913, 18.41149998, 18.41599941, 18.61799908, 18.88999939])

阈值的最大值不能将您尝试预测的两个值分开,因此它们将始终位于相同的节点中,从而为您提供相同的预测。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65256503

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档