首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在火车测试分裂之前,是否有任何理由来执行撞击-ENN?

在火车测试分裂之前,是否有任何理由来执行撞击-ENN?
EN

Data Science用户
提问于 2023-06-02 11:43:01
回答 2查看 28关注 0票数 0

我创建了一个预测数据的分类模型,问题是这两个类是高度不平衡的。

我有个问题。我创建了一个预测数据的分类模型,问题是这两个类是高度不平衡的。所以,我用SMOTE+ENN技术来处理它。在将数据分成训练集和测试集之前,我应用了SMOTE+ENN。原因是SMOTE生成合成数据来平衡类。我认为在拆分数据之前执行SMOTE+ENN将为数据创建一个有代表性的状态。

目前,我正在为一篇期刊文章进行研究,我无法修改模型。我唯一能做的就是在分割培训和测试数据之前对为什么执行SMOTE+ENN提供支持性的研究或推理。你能帮我提供一些支持这种方法的论据或理由吗?

例如:我能否提供以下理由:“在拆分数据之前执行SMOTE+ENN仍然是有效的,因为它的目标是通过与原始数据相似但具有不同统计值的平滑生成合成数据,从而在数据集中创建更平衡的情况。这意味着将引入新的数据点。同时,ENN有助于减少接近少数类的样本的冗余。我还设置了参数,使数据只增加10%,减少了10%,这是一个极小的变化。因此,模型的性能保持相对不变,模型评估的解释仅略有变化。”

EN

回答 2

Data Science用户

发布于 2023-06-02 12:41:33

在分裂之前,你不应该使用SMOTE。它有两个大问题:

  1. 在测试集中添加合成数据将改变数据的分布,而您所测量的度量标准将无法代表真实分布。
  2. 它将引入一个数据泄漏。SMOTE将基于整个数据集创建数据,这意味着模型的培训数据包括有关测试数据的信息。

因此,我不会试图使它合理化,而是试图解决这个问题。

票数 0
EN

Data Science用户

发布于 2023-06-02 15:29:26

不幸的是,我们无法真正找到一个合适的理由,因为这个过程是错误的。然而,在不平衡的数据中,这是一个常见的误解。重采样方法只应应用于培训分区,测试集必须保持不变,直到最终验证为止。看一下这篇论文,它对问题进行了全面和全面的评估,评估了在进行拆分之前和之后(包括使用SMOTE)的效果。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/121921

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档