我一直在阅读这两种技术来寻找单词的词根,但我们如何更喜欢其中一种而另一种呢?
“莱曼化”总是比“堵住”好吗?
发布于 2019-04-22 11:19:05
我要说的是,柠檬化通常是将相关词语缩减为一个共同基础的首选方式。
这个Quora问题是关于这个主题的一个很好的资源:在NLP中选择柠檬化比堵塞好吗?最上面的答案引用了另一个很好的资源,这是为什么狐猴化通常更好的原因,来自斯坦福NLP的堵塞和柠檬化:
词干通常指的是一种粗略的启发式过程,它在大多数情况下都是为了实现这一目标而切断词尾的,并且常常包括删除派生词缀。词义化通常是指使用词汇和词法分析来正确地处理事物,通常只是为了去掉屈折的结尾,并返回单词的基或字典形式,即引理。
但这只是一般情况下,并不总是更好。阻塞仍然有一些优势,它将取决于用例。你会用一些理由来阻止柠檬化,可能是:
发布于 2022-03-03 19:12:27
这取决于您的用例。每当我们谈到速度和复杂性不起作用的项目时,柠檬化通常是更好的解决方案。这也是更好的解决方案,因为它输出实际单词,而不仅仅是词干。不一定是真实的词。
当您需要处理大量的单词并且在处理能力上受到限制时,堵住就是首选。
然而,目前变压器模型对词的意义和语境的检测效果相当好。然后,您就不需要用词干或柠檬化来预处理数据了。
https://datascience.stackexchange.com/questions/49712
复制相似问题