我在我的数据集上使用了数据增强技术,以便有更多的数据需要训练。我的数据是文本,所以数据增强技术是基于随机插入词,随机交换和同义词替换。
我所用的算法在其他数据集中表现良好,但在我的实验中,它的精度比原来的实验要低。有什么逻辑的解释吗?
发布于 2019-11-01 19:22:59
同时,文本数据是:
因此,很难有一个具有足够代表性的“总体”文本的文本样本,即涵盖所有可能的输入的足够的情况。但是,增强方法几乎肯定会失败,因为它们要么会使文本变得乱七八糟,要么只会覆盖一些微小的变化,而这些变化并不能显著提高覆盖范围。
这就是为什么NLP的很多工作都是关于实验设计和预处理。
https://datascience.stackexchange.com/questions/62538
复制相似问题