我开发了一个文本数据预处理管道,使用了不同的清理技术,如词干、词条化、停止字词删除等。但现在,业务团队的要求是量化预处理步骤(或它生成的文本数据)的质量。我们如何开发一些度量来评估文本数据的预处理质量?
发布于 2020-12-07 22:50:52
评估任何任务包括正式定义任务,以便尽可能客观地定义正确的输出。例如,如果一个好的机器翻译系统具有与输入句子相同的意思,并且在语法上是正确的,那么它就能产生一个好的翻译。
假设这个预处理任务是正式定义的,那么评估应该衡量输出是如何“正确地预处理”的:
通常,人们会构建一个测试集,手动添加正确的输出,然后将系统输出与黄金标准进行比较。
然而,“预处理”通常不被认为是一项任务本身,因为根据定义,它是另一项任务的步骤。重要的是,预处理的步骤取决于其他任务,它们并不总是相同的。例如,仅对于基于分布式语义的任务,即与主题相关的任务,停止词的删除才有意义。预处理还可以包括依赖于数据量的步骤。
https://datascience.stackexchange.com/questions/86357
复制相似问题