文章/答案/技术大牛

发布

社区首页 >问答首页 >合成数据是否也被过度抽样？

问合成数据是否也被过度抽样？
EN

Data Science用户

提问于 2022-03-30 15:09:04

回答 1查看 31关注 0票数 1

我正在构建一个二进制文本分类器，正负之比为1:100 (100 / 10000)。

通过使用反向翻译作为一个增强，我能够得到400多个积极的。然后我决定进行抽样，以平衡数据。我是只包括正面数据点(100)，还是也包括我已经生成的400？

我肯定会尝试这两种方法，但我想知道在这种情况下，是否有什么经验法则。

谢谢。

发布于 2022-03-31 06:07:19

在大多数情况下，当您拥有较小的数据时，不平衡类是一个问题。在这种情况下，如果您的模型要做得很好，您的数据比为100:10000，您应该增加与少数类相关的记录。现在ML中没有经验法则(在ML中没有免费午餐阅读)。不幸的是，您将不得不尝试三种方案，并查看哪些方案最适合您：

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/109500

复制

相似问题

问合成数据是否也被过度抽样？EN