我使用stanford-nlp Python包在一个阿拉伯语句子中应用了标记化和词汇化,结果如下:
文本:العراق引理:عِرَاق
文本:بلد引理:بَلَد
文本:رائع引理:رَائِع
如何从单词中删除变音符号?
发布于 2019-08-09 02:15:46
根据github的说法
块引用ArabicTokenizer支持各种正交归一化选项,这些选项可以在ArabicSegmenter中使用-orthoOptions标志进行配置。-orthoOptions的参数是一个以逗号分隔的规范化选项列表。支持以下选项:
..。
removeDiacritics :去掉所有变音符号
removeTatweel :条形纹身延伸字符
removeQuranChars :删除古兰经中出现的变音符号
..。
这有帮助吗?
发布于 2020-03-13 17:21:21
简单的正则表达式就可以解决您的问题。
尝试按照以下代码删除阿拉伯语变音符号:
import re
lemma = 'رَائِع'
lemma_without_diacritics = re.sub(r'[\u064b-\u065f]', '', lemma)
print(lemma_without_diacritics) # output: رائع[\u064b-\u065f]表示标准的阿拉伯语变音符号范围。
有关更多信息,请参阅Arabic Character Code Tables。
https://stackoverflow.com/questions/57418146
复制相似问题