首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >随机森林回归器或决策树能处理丢失的值和异常值吗?

随机森林回归器或决策树能处理丢失的值和异常值吗?
EN

Data Science用户
提问于 2020-04-22 13:10:37
回答 2查看 9.7K关注 0票数 2

我有以下假设的RF和决策树一般,请纠正我,如果假设是不正确的。

  1. 它会处理丢失的值。
  2. 它处理异常值
  3. 它处理数据中的偏斜,因此不需要转换。
  4. 不需要功能缩放。
  5. 不需要特征选择。

如果我的观察是不正确的,请更正,因为您可以看到数据集中存在一个nan值错误。还有怎么纠正呢?

代码语言:javascript
复制
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

导入数据集

代码语言:javascript
复制
share3.info()
share2.isnull().sum()


XRD = share2.drop(['Close'], axis = 1)
YRD = share2['Close']

培训与测试集

代码语言:javascript
复制
from sklearn.model_selection import train_test_split
X_trainRD, X_testRD, Y_trainRD, Y_testRD = train_test_split(XRD,YRD,test_size = 0.2, random_state = 0)

拟合随机森林回归到数据集

代码语言:javascript
复制
from sklearn.ensemble import RandomForestRegressor
regressor = RandomForestRegressor(n_estimators= 350,random_state = 0)
regressor.fit(X_trainRD, Y_trainRD)

***ValueError: Input contains NaN, infinity or a value too large for dtype('float32')***
```
代码语言:javascript
复制
EN

回答 2

Data Science用户

发布于 2020-04-22 13:30:28

不,不是所有的假设都是真实的

1.缺失值

如果没有明确的指令/添加的代码,RandomForest的sklearn实现不会在内部处理丢失的值。因此,当补救措施(例如,缺失的价值归责等)在滑雪板中随时可用,在训练模型之前,你必须处理丢失的值。

这涉及到理解值丢失的方式和原因(MCAR )。MAR对。...)并确定处理这些值的最佳方法(中位数/平均估算、老鼠、移除值等)。

2.离群值和偏斜度

再说一次,这不是一笔交易!您需要一些EDA来理解这里的数据并相应地处理它。依赖变量分布中的强烈偏差(所谓的类不平衡)会对结果产生很大影响。想办法处理那些像击打一样的东西。

当离群点真的是异常值的时候,离群值就不是什么问题了。通过EDA检查并确认这不是一个需要处理的问题。

3.特征选择和转换

的确,许多ML模型都倾向于采用更多的方法来进行特征选择。与传统的统计方法相比,使用RandomForest、XGB的主要好处是它们能够更好地处理无关的预测器。

尽管如此,特征选择也意味着特征工程,这仍然是有帮助和必要的。另外,为了实用目的,如果您想再次使用您的模型,您仍然应该减少预测器的数量。因为无论多么无关紧要,训练模型中使用的每一个预测器都需要出现在看不见的数据中。

最后,您需要转换数据!简单地说,RandomForest需要对因子变量和字符串变量进行一次热编码(OHE) .对于所有的数值变量,您不需要相同的尺度,但是它们都需要是数值的!

票数 1
EN

Data Science用户

发布于 2020-04-22 20:33:20

它会处理丢失的值。

不,实际上没有一个模型能够处理NaN,如果有任何模型这样做,它就是代表您作出决定。NaN必须被理解和解决

它处理异常值

是的,由于它不依赖于任何距离公式或任何数学公式最小化,它只是尝试拆分不同的数据/特征,并检查改进

它处理数据中的偏斜,因此不需要转换。

是的,出于同样的原因

不需要功能缩放。

是的,出于同样的原因。甚至对于分类特性也不需要一个??热,简单的标签编码就可以了。

不需要特征选择。

不,这是一个完全不同的方面。由于有太多的特性和数据大小,模型将很难搜索最佳分割。如果计数很高一定要做

阶级不平衡

必须处理好。因为类不平衡意味着数据没有为模型提供充分的机会来了解少数类。跟模特没什么关系。所有的模特都会面临挑战。

超适合

是的,射频是安全的

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/72764

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档