我需要对多种语言的文本进行名称实体提取:西班牙语、葡萄牙语、希腊语、捷克语、中文。
有没有这两个函数支持的所有语言的列表?有没有一种方法可以使用其他语料库,以便将这些语言包括在内?
发布于 2013-02-28 21:35:35
默认情况下,这两个函数都只支持英文文本。它并不在文档中,但您可以通过查看源代码来查看:
pos_tag()函数从这个文件加载一个标记器:'taggers/maxent_treebank_pos_tagger/english.pickle'。(see here)word_tokenize()函数使用Treebank标记器,该标记器使用正则表达式来标记化文本,就像在(英语) Penn Treebank语料库中一样。(see here)发布于 2022-02-10 17:35:13
NLTK标记器支持的语言列表如下:
它对应于存储在C:\Users\XXX\AppData\Roaming\nltk_data\tokenizers\punkt中的泡菜(在Windows中)。这是在标记化时使用关键字'language‘输入的内容,例如
nltk.word_tokenize(text, language='italian')https://stackoverflow.com/questions/15111183
复制相似问题