首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >nltk.word_tokenize和nltk.pos_tag支持哪些语言

nltk.word_tokenize和nltk.pos_tag支持哪些语言
EN

Stack Overflow用户
提问于 2013-02-27 19:40:21
回答 2查看 7.3K关注 0票数 4

我需要对多种语言的文本进行名称实体提取:西班牙语、葡萄牙语、希腊语、捷克语、中文。

有没有这两个函数支持的所有语言的列表?有没有一种方法可以使用其他语料库,以便将这些语言包括在内?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-02-28 21:35:35

默认情况下,这两个函数都只支持英文文本。它并不在文档中,但您可以通过查看源代码来查看:

  1. pos_tag()函数从这个文件加载一个标记器:'taggers/maxent_treebank_pos_tagger/english.pickle'。(see here)
  2. The word_tokenize()函数使用Treebank标记器,该标记器使用正则表达式来标记化文本,就像在(英语) Penn Treebank语料库中一样。(see here)
票数 4
EN

Stack Overflow用户

发布于 2022-02-10 17:35:13

NLTK标记器支持的语言列表如下:

  • 'czech'
  • 'danish'
  • 'dutch'
  • 'english'
  • 'estonian'
  • 'finnish'
  • 'french'
  • 'german'
  • 'greek'
  • 'italian'
  • 'norwegian'
  • 'polish'
  • 'portuguese'
  • 'russian'
  • 'slovene',
  • 'spanish'
  • 'swedish'
  • 'turkish'

它对应于存储在C:\Users\XXX\AppData\Roaming\nltk_data\tokenizers\punkt中的泡菜(在Windows中)。这是在标记化时使用关键字'language‘输入的内容,例如

代码语言:javascript
复制
nltk.word_tokenize(text, language='italian')
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/15111183

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档