我看到一些人尝试的一个主题是使用GANs生成用于监督学习的合成表格数据。这也是在二进制分类中对少数类进行过采样的一种方法。
对我来说,创建合成数据有点危险。
在实践中,我所看到的使用GANs生成新的培训数据的所有实验都失败了。
背后有什么理论原因吗?
发布于 2020-12-08 20:23:46
甘斯有很多已知的问题。主要是:
用于图像生成的GANs已经得到了广泛的研究。其他领域,如语音过滤,也有研究,但没有那么广泛。在其他领域,如文本生成,GANs并不十分成功。对于通过GANs生成表格数据,发布的工作量很少:medGAN、VeeGAN、ehrGAN、TableGAN、CTGAN。
我认为阻碍我们在非图像领域设计更好的GANs的主要问题之一是评估。有了图像,你可以看到结果,并迅速确定它们是否具有良好的质量和多样性。然而,对于其他领域来说,评估生成的数据的质量和多样性并不容易。
我认为现在大多数人都坚持传统的过采样方法来生成表格数据。
https://datascience.stackexchange.com/questions/86396
复制相似问题