首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在NLP中使用数据增强技术效果低的原因是什么?

在NLP中使用数据增强技术效果低的原因是什么?
EN

Data Science用户
提问于 2019-11-01 18:20:23
回答 1查看 38关注 0票数 1

我在我的数据集上使用了数据增强技术,以便有更多的数据需要训练。我的数据是文本,所以数据增强技术是基于随机插入词,随机交换和同义词替换。

我所用的算法在其他数据集中表现良好,但在我的实验中,它的精度比原来的实验要低。有什么逻辑的解释吗?

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-11-01 19:22:59

同时,文本数据是:

  • 非常有条理,因为在一个句子中只交换几个单词就可以使它完全是胡言乱语,
  • 而且非常灵活,因为在一个句子中通常有很多表达相同想法的方法。

因此,很难有一个具有足够代表性的“总体”文本的文本样本,即涵盖所有可能的输入的足够的情况。但是,增强方法几乎肯定会失败,因为它们要么会使文本变得乱七八糟,要么只会覆盖一些微小的变化,而这些变化并不能显著提高覆盖范围。

这就是为什么NLP的很多工作都是关于实验设计和预处理。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/62538

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档