首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >阿拉伯语柠檬化和斯坦福NLP

阿拉伯语柠檬化和斯坦福NLP
EN

Stack Overflow用户
提问于 2015-03-19 17:33:54
回答 2查看 4.4K关注 0票数 5

我试着做引理,即识别动词的引理和可能的阿拉伯词根,例如:==>يتصل引理(动词不定式) ==>اتصل==> root (三部曲词根/ Jidr thoulathi) ==>وصل

你觉得斯坦福NLP能做到吗?

诚挚的问候,

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-03-23 20:32:04

史丹福阿拉伯语片段不可能做真正的柠檬化。然而,有可能训练一种新的模式来做一些类似于堵塞的事情:

  • تكتبون←ت+كتب+ون
  • يتصل←ي+تصل

如果输出是真正的阿拉伯引理非常重要("تصل“不是真正的引理),那么使用像MADAMIRA (تصل)这样的工具可能会更好。

精化:斯坦福阿拉伯语分段器仅使用以下操作(在edu.stanford.nlp.international.arabic.process.IOBUtils中实现)逐字符输出:

  • 在两个字符之间分割一个单词
  • 将lil- ( li+ - (للـ) )转化为ل+ al- (ل+الـ)
  • 将ta (ت)或ha (ه)转化为ta marbuta (ة)
  • 将ya (ي)或alif (ا)转换为alif (ى)
  • 将alif (ى)转换为ya (ي)

因此,将ي+يتصل定义为اتصل需要实现一条额外的规则,即在ya或ta之后插入alif。某些不规则形式的孤立是完全不可能的(例如,نساء←امرأة)。

可供下载的版本也只会中断代词和粒子:

و+س+يكتشفون+ه

但是,如果您可以访问最不发达国家阿拉伯树库或一个同样丰富的阿拉伯文本来源,并附有形态学分段注释,那么您就可以训练自己的模型来删除所有形态词缀,这些词缀更接近词缀化:

و+س+ي+كتشف+ون+ه

请注意,"كتشف“不是真正的阿拉伯单词,但切分器至少应该一致地为تكتشفين,أكتشف,يكتشف等生成"كتشف”。如果这是可以接受的,则需要更改ATB预处理脚本以代替使用形态分段注释。您可以通过将名为parse_integrated的脚本替换为修改后的版本来做到这一点:https://gist.github.com/futurulus/38307d98992e7fdeec0d

然后按照自述文件中“训练分段器”的说明。

票数 12
EN

Stack Overflow用户

发布于 2017-12-11 10:50:59

我不确定斯坦福NLP工具包是否有点火器,但你可以试试。

  • 最先进的是法拉撒·莱马提泽.
  • 阿拉伯文处理的MADAMIRA

在精度上,法拉萨·莱马提泽优于MADAMIRA·莱姆马提泽。其精度约为97.23%,比MADAMIRA高出+7%。

您可以从以下链接了解更多关于Farasa的信息:https://arxiv.org/pdf/1710.06700.pdf

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29151329

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档