首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >合成数据是否也被过度抽样?

合成数据是否也被过度抽样?
EN

Data Science用户
提问于 2022-03-30 15:09:04
回答 1查看 31关注 0票数 1

我正在构建一个二进制文本分类器,正负之比为1:100 (100 / 10000)。

通过使用反向翻译作为一个增强,我能够得到400多个积极的。然后我决定进行抽样,以平衡数据。我是只包括正面数据点(100),还是也包括我已经生成的400?

我肯定会尝试这两种方法,但我想知道在这种情况下,是否有什么经验法则。

谢谢。

EN

回答 1

Data Science用户

发布于 2022-03-31 06:07:19

在大多数情况下,当您拥有较小的数据时,不平衡类是一个问题。在这种情况下,如果您的模型要做得很好,您的数据比为100:10000,您应该增加与少数类相关的记录。现在ML中没有经验法则(在ML中没有免费午餐阅读)。不幸的是,您将不得不尝试三种方案,并查看哪些方案最适合您:

  1. 仅使用实际数据的上采样
  2. 通过使用诸如SMOTE之类的技术来创建新的合成数据
  3. 尝试将两者结合起来生成一些合成数据和过度采样。
票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/109500

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档