问文本数据预处理的质量检验
EN

Data Science用户

提问于 2020-12-07 10:41:20

回答 1查看 234关注 0票数 1

我开发了一个文本数据预处理管道，使用了不同的清理技术，如词干、词条化、停止字词删除等。但现在，业务团队的要求是量化预处理步骤(或它生成的文本数据)的质量。我们如何开发一些度量来评估文本数据的预处理质量？

发布于 2020-12-07 22:50:52

评估任何任务包括正式定义任务，以便尽可能客观地定义正确的输出。例如，如果一个好的机器翻译系统具有与输入句子相同的意思，并且在语法上是正确的，那么它就能产生一个好的翻译。

假设这个预处理任务是正式定义的，那么评估应该衡量输出是如何“正确地预处理”的：

通常，人们会构建一个测试集，手动添加正确的输出，然后将系统输出与黄金标准进行比较。

然而，“预处理”通常不被认为是一项任务本身，因为根据定义，它是另一项任务的步骤。重要的是，预处理的步骤取决于其他任务，它们并不总是相同的。例如，仅对于基于分布式语义的任务，即与主题相关的任务，停止词的删除才有意义。预处理还可以包括依赖于数据量的步骤。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/86357

复制

相似问题

问文本数据预处理的质量检验EN