首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >IQR异常值检测背后的逻辑

IQR异常值检测背后的逻辑
EN

Data Science用户
提问于 2022-01-04 07:51:31
回答 1查看 57关注 0票数 0

为什么我们使用IQR来检测数据集中的异常值,该方法背后的逻辑是什么?还有其他方法来检测异常值吗?

EN

回答 1

Data Science用户

发布于 2022-01-04 11:59:55

IQR说,在离中位数“太远”的功能中,观察到的是离群点。

有许多算法可以找到“离群点”。这里有几个- 这里这里

然而,发现离群点是有关联的。对于给定的问题,什么是离群点可能有不同的定义。定义需要在问题和数据的背景下进行。

接下来,你如何处理离群点是一个更难的问题。同样,这也是解决问题的背景。有些人用更接近预期正常值的东西来代替离群点。有些人删除了这一意见。有些人可能会设置一个指示值。或者更多..。

那么这是单变量还是多变量的离群点呢?根据定义,该特性本身可能很少有异常值。但是,从观察的背景来看,这个值可能是一个离群点。例如,取数据集中的年龄和收入。如果年龄是== 1岁,我就不会期望50,000美元的收入。虽然50,000美元的收入在所有收入中不一定是异常值,但就年龄和收入而言,50,000美元可能是一个异常值。那么我们要做的就是回到问题的背景上来。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/106679

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档