文章/答案/技术大牛

发布

社区首页 >问答首页 >从多维数据集中移除异常值&数据增强

问从多维数据集中移除异常值&数据增强
EN

Data Science用户

提问于 2021-10-20 07:44:05

回答 2查看 396关注 0票数 0

通过移除IQR范围之外的点，可以很容易地消除单个数据的离群点。但是，如果数据集是由多个维度的数据组成的，那么如何检测和删除异常值呢？

下面是我的方法:数据集包含七个不同的数据维度。当在dataframe上显示时，有七个不同的列；每一行充当解释单个数据属性的元数据。

我遍历了每个单独的列，并删除了包含IQR范围之外的数据的行。由于七个不同的列被分组在一列中，我认为循环遍历每一列并移除异常值将导致包含IQR范围内的数据的数据，尽管其总体数量可能已经减少。

现在我想问一下关于数据增强的问题。虽然有一个专门的库可以通过随机修改其结构来增强图像数据集，但要找到一种增强数值数据的方法是很有挑战性的。因此，我创造了我自己的方法。

在从数据集中剔除离群点后，我绘制了一个多项式回归函数，以找出目标数据(有待预测的数据)与每个单独的特征数据(用于训练模型的数据)之间的关系--某个目标数据值与某个特征数据之间的关系。

然后，我随机生成位于IQR范围内的目标数据值；使用先前发现的回归关系获得其他特征数据值。利用增强的数据集，我训练了模型并做了预测。

在我提出的数据增强方法中，有两个主要谬误。

尽管随机生成的目标数据值在IQR范围内，但从回归得到的其他特征数据值可能存在于IQR范围之外；因此，使孤立点消除过程变得毫无意义。我确实意识到了这一点，但决定继续删除异常值将有助于检索一个更精确的回归函数，说明目标数据和每个特性数据之间的关系。
原始数据集不包含用于培训的大量数据。数据集主要由增广数据组成，以人工数据为中心的模型训练可能导致不必要的结果。与使用原始数据集训练的模型相比，使用增广数据集训练的模型在性能上没有显着改善。

我是否采取了适当的办法仍然是一个问题。

TL博士:我有两个关于数据预处理的问题。

如何在包含多维数据的数据集中检测和删除异常值？
是否有一种有效的数字数据增强方法，就像用于增强图像数据的ImageDataGenerator一样？

dataset

data

outlier

data-augmentation

回答 2

Data Science用户

发布于 2021-10-20 08:39:58

你为什么要删除离群点？你认为这些数据是错误的吗？你认为他们对模型的影响过大吗？这些行是模型应该正确还是错误，然后移到验证集？其他原因？了解要识别异常值的原因，然后选择适当的方法。我认为最好是找出什么可能是离群点，然后检查这些，以了解适当的待遇。我还绘制了数据以获得这些异常值的可视视图。仅仅因为一行有很大的值，并不意味着它是“错误的”。

下面是一个讨论的线程。仅仅因为你能移除离群点并不意味着你应该。知道你搬家的原因。如果删除行，则将它们移动到它们自己的验证集，以便使用经过训练的模型进行测试。

但要回答这个问题，一种识别多维异常值的方法是使用随机森林与邻近矩阵。随机森林可以作为探索性数据分析。在这种情况下，建立一个随机森林，建立一个邻近矩阵，然后分析哪些记录通常是自己在叶节点或与不同的伙伴一直。这表明哪些记录是不同的，以至于模型认为它们是不同的。

对交叉验证的搜索显示了许多其他的孤立点检测方法。

票数 0

Data Science用户

发布于 2022-01-21 12:44:07

例如，高维场景中的离群点可以通过主成分分析在降维后进行。在降维空间中，盒图(1维)、袋图(2维)或闪烁点(3维)都可以被应用于异常点的检测。详情请看Kruppa，J，& Jung，K. (2017)。自动多组离群识别在分子高通量数据中使用袋图和闪光灯。BMC生物信息学，18(1)，1-10。全文

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/103309

复制

相似问题

问从多维数据集中移除异常值&数据增强
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从多维数据集中移除异常值&数据增强EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从多维数据集中移除异常值&数据增强
EN