首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从多维数据集中移除异常值&数据增强

从多维数据集中移除异常值&数据增强
EN

Data Science用户
提问于 2021-10-20 07:44:05
回答 2查看 396关注 0票数 0

通过移除IQR范围之外的点,可以很容易地消除单个数据的离群点。但是,如果数据集是由多个维度的数据组成的,那么如何检测和删除异常值呢?

下面是我的方法:数据集包含七个不同的数据维度。当在dataframe上显示时,有七个不同的列;每一行充当解释单个数据属性的元数据。

我遍历了每个单独的列,并删除了包含IQR范围之外的数据的行。由于七个不同的列被分组在一列中,我认为循环遍历每一列并移除异常值将导致包含IQR范围内的数据的数据,尽管其总体数量可能已经减少。

现在我想问一下关于数据增强的问题。虽然有一个专门的库可以通过随机修改其结构来增强图像数据集,但要找到一种增强数值数据的方法是很有挑战性的。因此,我创造了我自己的方法。

在从数据集中剔除离群点后,我绘制了一个多项式回归函数,以找出目标数据(有待预测的数据)与每个单独的特征数据(用于训练模型的数据)之间的关系--某个目标数据值与某个特征数据之间的关系。

然后,我随机生成位于IQR范围内的目标数据值;使用先前发现的回归关系获得其他特征数据值。利用增强的数据集,我训练了模型并做了预测。

在我提出的数据增强方法中,有两个主要谬误。

  • 尽管随机生成的目标数据值在IQR范围内,但从回归得到的其他特征数据值可能存在于IQR范围之外;因此,使孤立点消除过程变得毫无意义。我确实意识到了这一点,但决定继续删除异常值将有助于检索一个更精确的回归函数,说明目标数据和每个特性数据之间的关系。
  • 原始数据集不包含用于培训的大量数据。数据集主要由增广数据组成,以人工数据为中心的模型训练可能导致不必要的结果。与使用原始数据集训练的模型相比,使用增广数据集训练的模型在性能上没有显着改善。

我是否采取了适当的办法仍然是一个问题。

TL博士:我有两个关于数据预处理的问题。

  • 如何在包含多维数据的数据集中检测和删除异常值?
  • 是否有一种有效的数字数据增强方法,就像用于增强图像数据的ImageDataGenerator一样?
EN

回答 2

Data Science用户

发布于 2021-10-20 08:39:58

你为什么要删除离群点?你认为这些数据是错误的吗?你认为他们对模型的影响过大吗?这些行是模型应该正确还是错误,然后移到验证集?其他原因?了解要识别异常值的原因,然后选择适当的方法。我认为最好是找出什么可能是离群点,然后检查这些,以了解适当的待遇。我还绘制了数据以获得这些异常值的可视视图。仅仅因为一行有很大的值,并不意味着它是“错误的”。

下面是一个讨论的线程。仅仅因为你能移除离群点并不意味着你应该。知道你搬家的原因。如果删除行,则将它们移动到它们自己的验证集,以便使用经过训练的模型进行测试。

但要回答这个问题,一种识别多维异常值的方法是使用随机森林与邻近矩阵。随机森林可以作为探索性数据分析。在这种情况下,建立一个随机森林,建立一个邻近矩阵,然后分析哪些记录通常是自己在叶节点或与不同的伙伴一直。这表明哪些记录是不同的,以至于模型认为它们是不同的。

交叉验证的搜索显示了许多其他的孤立点检测方法。

票数 0
EN

Data Science用户

发布于 2022-01-21 12:44:07

例如,高维场景中的离群点可以通过主成分分析在降维后进行。在降维空间中,盒图(1维)、袋图(2维)或闪烁点(3维)都可以被应用于异常点的检测。详情请看Kruppa,J,& Jung,K. (2017)。自动多组离群识别在分子高通量数据中使用袋图和闪光灯。BMC生物信息学,18(1),1-10。全文

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/103309

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档