为什么我们使用IQR来检测数据集中的异常值,该方法背后的逻辑是什么?还有其他方法来检测异常值吗?
发布于 2022-01-04 11:59:55
IQR说,在离中位数“太远”的功能中,观察到的是离群点。
然而,发现离群点是有关联的。对于给定的问题,什么是离群点可能有不同的定义。定义需要在问题和数据的背景下进行。
接下来,你如何处理离群点是一个更难的问题。同样,这也是解决问题的背景。有些人用更接近预期正常值的东西来代替离群点。有些人删除了这一意见。有些人可能会设置一个指示值。或者更多..。
那么这是单变量还是多变量的离群点呢?根据定义,该特性本身可能很少有异常值。但是,从观察的背景来看,这个值可能是一个离群点。例如,取数据集中的年龄和收入。如果年龄是== 1岁,我就不会期望50,000美元的收入。虽然50,000美元的收入在所有收入中不一定是异常值,但就年龄和收入而言,50,000美元可能是一个异常值。那么我们要做的就是回到问题的背景上来。
https://datascience.stackexchange.com/questions/106679
复制相似问题