首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Lemmatization .词干

Lemmatization .词干
EN

Data Science用户
提问于 2019-04-22 10:41:28
回答 2查看 3.5K关注 0票数 7

我一直在阅读这两种技术来寻找单词的词根,但我们如何更喜欢其中一种而另一种呢?

“莱曼化”总是比“堵住”好吗?

EN

回答 2

Data Science用户

回答已采纳

发布于 2019-04-22 11:19:05

我要说的是,柠檬化通常是将相关词语缩减为一个共同基础的首选方式。

这个Quora问题是关于这个主题的一个很好的资源:在NLP中选择柠檬化比堵塞好吗?最上面的答案引用了另一个很好的资源,这是为什么狐猴化通常更好的原因,来自斯坦福NLP的堵塞和柠檬化

为什么柠檬化更好

词干通常指的是一种粗略的启发式过程,它在大多数情况下都是为了实现这一目标而切断词尾的,并且常常包括删除派生词缀。词义化通常是指使用词汇和词法分析来正确地处理事物,通常只是为了去掉屈折的结尾,并返回单词的基或字典形式,即引理。

但这只是一般情况下,并不总是更好。阻塞仍然有一些优势,它将取决于用例。你会用一些理由来阻止柠檬化,可能是:

一些可能的例外,当词干可能更好的

  • 简单性
  • 速度
  • 内存约束
票数 11
EN

Data Science用户

发布于 2022-03-03 19:12:27

这取决于您的用例。每当我们谈到速度和复杂性不起作用的项目时,柠檬化通常是更好的解决方案。这也是更好的解决方案,因为它输出实际单词,而不仅仅是词干。不一定是真实的词。

当您需要处理大量的单词并且在处理能力上受到限制时,堵住就是首选。

然而,目前变压器模型对词的意义和语境的检测效果相当好。然后,您就不需要用词干或柠檬化来预处理数据了。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/49712

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档