我正在构建一个二进制文本分类器,正负之比为1:100 (100 / 10000)。
通过使用反向翻译作为一个增强,我能够得到400多个积极的。然后我决定进行抽样,以平衡数据。我是只包括正面数据点(100),还是也包括我已经生成的400?
我肯定会尝试这两种方法,但我想知道在这种情况下,是否有什么经验法则。
谢谢。
发布于 2022-03-31 06:07:19
在大多数情况下,当您拥有较小的数据时,不平衡类是一个问题。在这种情况下,如果您的模型要做得很好,您的数据比为100:10000,您应该增加与少数类相关的记录。现在ML中没有经验法则(在ML中没有免费午餐阅读)。不幸的是,您将不得不尝试三种方案,并查看哪些方案最适合您:
https://datascience.stackexchange.com/questions/109500
复制相似问题