我试着做引理,即识别动词的引理和可能的阿拉伯词根,例如:==>يتصل引理(动词不定式) ==>اتصل==> root (三部曲词根/ Jidr thoulathi) ==>وصل
你觉得斯坦福NLP能做到吗?
诚挚的问候,
发布于 2015-03-23 20:32:04
史丹福阿拉伯语片段不可能做真正的柠檬化。然而,有可能训练一种新的模式来做一些类似于堵塞的事情:
如果输出是真正的阿拉伯引理非常重要("تصل“不是真正的引理),那么使用像MADAMIRA (تصل)这样的工具可能会更好。
精化:斯坦福阿拉伯语分段器仅使用以下操作(在edu.stanford.nlp.international.arabic.process.IOBUtils中实现)逐字符输出:
因此,将ي+يتصل定义为اتصل需要实现一条额外的规则,即在ya或ta之后插入alif。某些不规则形式的孤立是完全不可能的(例如,نساء←امرأة)。
可供下载的版本也只会中断代词和粒子:
و+س+يكتشفون+ه
但是,如果您可以访问最不发达国家阿拉伯树库或一个同样丰富的阿拉伯文本来源,并附有形态学分段注释,那么您就可以训练自己的模型来删除所有形态词缀,这些词缀更接近词缀化:
و+س+ي+كتشف+ون+ه
请注意,"كتشف“不是真正的阿拉伯单词,但切分器至少应该一致地为تكتشفين,أكتشف,يكتشف等生成"كتشف”。如果这是可以接受的,则需要更改ATB预处理脚本以代替使用形态分段注释。您可以通过将名为parse_integrated的脚本替换为修改后的版本来做到这一点:https://gist.github.com/futurulus/38307d98992e7fdeec0d
然后按照自述文件中“训练分段器”的说明。
发布于 2017-12-11 10:50:59
我不确定斯坦福NLP工具包是否有点火器,但你可以试试。
在精度上,法拉萨·莱马提泽优于MADAMIRA·莱姆马提泽。其精度约为97.23%,比MADAMIRA高出+7%。
您可以从以下链接了解更多关于Farasa的信息:https://arxiv.org/pdf/1710.06700.pdf
https://stackoverflow.com/questions/29151329
复制相似问题