首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >关于不平衡数据的上采样和使用ADASYN而不是SMOTE的后续问题

关于不平衡数据的上采样和使用ADASYN而不是SMOTE的后续问题
EN

Data Science用户
提问于 2020-12-27 13:02:22
回答 1查看 128关注 0票数 1

我有一个关于这个话题。的后续问题

我一直在使用决策树和随机森林算法为组织做一个预测成功(1)或失败(0)的项目。

我的数据集有少数类型的成功,我希望使用SMOTE或ADASYN对其进行升级。

我知道这个职位中提到的推理适用于通过复制进行的平滑和随机重采样,但这是否也适用于通过ADASYN进行的过采样?由于我在ADASYN下引入了更多的随机性来合成新的观测,所以也许相关性可能更低?换句话说,使用ADASYN是否可以在分割之前对培训和测试数据进行重采样,甚至是重新抽样?

我看到了一篇研究论文,该论文首先应用了列车测试分割,然后在测试数据集和训练数据集中分别使用ADASYN对少数类进行了抽样。这种方法对我来说更有意义,因为与列车测试分裂之前的过采样相比,这种方法引入了从培训到测试数据的泄漏的可能性,相反,通过分别重采样培训和测试数据集来消除泄漏的可能性。我听说这种方法也不完全正确,因为测试数据集应该是复制真实世界的,因此我们不应该以任何方式改变它。

另一方面,我可以不对测试数据集中的少数类进行过采样,甚至可以对多数类进行降采样,这可能是一种更好的方法,因为测试数据集仍然只有来自现实世界的观察。在这里,我们给了算法一个公平的机会(50:50)在每个类别(1或0)之间进行选择。尽管如此,现实世界中最有可能的是,1和0的比例并不相等。

此外,一些地方还建议按比例进行列车测试,这样训练和测试数据集的比例就相等。正如我所理解的,在运行代码时可以使用stratify=y完成这一任务。如果我需要这样做,请告诉我,为什么?

EN

回答 1

Data Science用户

发布于 2023-01-31 10:23:43

你问了几个问题,但所有这些问题都有一个正确的答案--你的测试数据需要尽可能多地反映现实世界。

这就是为什么当您将数据分割成测试和培训集时,您的测试数据需要尽可能好地反映现实情况。如果原始数据的大小允许在目标变量上构建地层之后,则通常对目标变量和一些时间或空间变量进行分层。当我从事信用风险分析时,我对目标变量进行了分层,并对一个变量进行了分层,该变量衡量了公司投资于永久资产的比例,因为它产生了更好的效果,而不是在告诉我公司在哪一年获得贷款的专栏上分层,而且数据集的大小不足以对永久资产和年度进行分层。

通过重新采样测试数据,您正在创建合成单元,它们可能永远不会发生在“野外”,有些甚至在现实世界中是不可能发生的。您将在拆分后进行抽样,但只在培训数据上进行。您希望检查重采样如何影响模型对尽可能客观的数据的性能。我想检查一下你说的在列车和测试集上使用过抽样的论文,因为这是相当不合适的,除非变量在它们的相关性、分布和允许这样的结论上遵循一些不同的性质。

您注意到过采样和下采样都有缺点。您希望比较它们在所讨论的数据集中的性能,这是您想要解决的问题。我注意到数据科学家和研究人员通常做的是将过采样和下采样结合起来,但这可能不适用于你的例子,而且,取决于你想要在数据中找到的模式的复杂性,可能比只使用其中一种方法更糟糕。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/87203

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档