首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >文本数据预处理的质量检验

文本数据预处理的质量检验
EN

Data Science用户
提问于 2020-12-07 10:41:20
回答 1查看 234关注 0票数 1

我开发了一个文本数据预处理管道,使用了不同的清理技术,如词干、词条化、停止字词删除等。但现在,业务团队的要求是量化预处理步骤(或它生成的文本数据)的质量。我们如何开发一些度量来评估文本数据的预处理质量?

EN

回答 1

Data Science用户

发布于 2020-12-07 22:50:52

评估任何任务包括正式定义任务,以便尽可能客观地定义正确的输出。例如,如果一个好的机器翻译系统具有与输入句子相同的意思,并且在语法上是正确的,那么它就能产生一个好的翻译。

假设这个预处理任务是正式定义的,那么评估应该衡量输出是如何“正确地预处理”的:

  • 词干和引理总是正确的吗?
  • 停止词和只有停止词被删除吗?
  • 等。

通常,人们会构建一个测试集,手动添加正确的输出,然后将系统输出与黄金标准进行比较。

然而,“预处理”通常不被认为是一项任务本身,因为根据定义,它是另一项任务的步骤。重要的是,预处理的步骤取决于其他任务,它们并不总是相同的。例如,仅对于基于分布式语义的任务,即与主题相关的任务,停止词的删除才有意义。预处理还可以包括依赖于数据量的步骤。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/86357

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档