问在NLP中使用数据增强技术效果低的原因是什么？
EN

Data Science用户

提问于 2019-11-01 18:20:23

回答 1查看 38关注 0票数 1

我在我的数据集上使用了数据增强技术，以便有更多的数据需要训练。我的数据是文本，所以数据增强技术是基于随机插入词，随机交换和同义词替换。

我所用的算法在其他数据集中表现良好，但在我的实验中，它的精度比原来的实验要低。有什么逻辑的解释吗？

回答已采纳

发布于 2019-11-01 19:22:59

同时，文本数据是：

因此，很难有一个具有足够代表性的“总体”文本的文本样本，即涵盖所有可能的输入的足够的情况。但是，增强方法几乎肯定会失败，因为它们要么会使文本变得乱七八糟，要么只会覆盖一些微小的变化，而这些变化并不能显著提高覆盖范围。

这就是为什么NLP的很多工作都是关于实验设计和预处理。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/62538

复制

相似问题

问在NLP中使用数据增强技术效果低的原因是什么？EN