首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在stanfordrdnlp python包中使用不带变音符号的阿拉伯语单词的词条?

如何在stanfordrdnlp python包中使用不带变音符号的阿拉伯语单词的词条?
EN

Stack Overflow用户
提问于 2019-08-09 01:45:23
回答 2查看 82关注 0票数 0

我使用stanford-nlp Python包在一个阿拉伯语句子中应用了标记化和词汇化,结果如下:

文本:العراق引理:عِرَاق

文本:بلد引理:بَلَد

文本:رائع引理:رَائِع

如何从单词中删除变音符号?

EN

回答 2

Stack Overflow用户

发布于 2019-08-09 02:15:46

根据github的说法

块引用ArabicTokenizer支持各种正交归一化选项,这些选项可以在ArabicSegmenter中使用-orthoOptions标志进行配置。-orthoOptions的参数是一个以逗号分隔的规范化选项列表。支持以下选项:

..。

removeDiacritics :去掉所有变音符号

removeTatweel :条形纹身延伸字符

removeQuranChars :删除古兰经中出现的变音符号

..。

这有帮助吗?

票数 0
EN

Stack Overflow用户

发布于 2020-03-13 17:21:21

简单的正则表达式就可以解决您的问题。

尝试按照以下代码删除阿拉伯语变音符号:

代码语言:javascript
复制
import re


lemma = 'رَائِع'
lemma_without_diacritics = re.sub(r'[\u064b-\u065f]', '', lemma)
print(lemma_without_diacritics)  # output: رائع

[\u064b-\u065f]表示标准的阿拉伯语变音符号范围。

有关更多信息,请参阅Arabic Character Code Tables

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57418146

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档