首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python语言中的民族智能词干/引理

Python语言中的民族智能词干/引理
EN

Stack Overflow用户
提问于 2017-02-03 15:07:25
回答 1查看 1K关注 0票数 4

我正在使用Python,我想找到一些主要指国家的单词的词根。一些例子说明了我需要的是:

  • 西班牙人应该给我西班牙。
  • 英语应该给我英格兰。
  • 美国人应该给我美国。
  • 尼日利亚应该给我尼日利亚。
  • 希腊人(复数)应该给我希腊。
  • 波多黎各人(复数)应该给我波多黎各。
  • 葡萄牙人应该给我葡萄牙语。

我在NLTK模块的波特,兰开斯特和雪球干细胞上做了一些实验。但是波特和斯诺波尔根本不改变记号,而兰开斯特太咄咄逼人了。例如,美国人的兰开斯特茎是"Am",这是非常糟糕的,我也玩过一些WordNet狐猴,但没有成功。

是否有办法取得上述结果,即使它只对国家有效?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-02-03 15:51:25

您可能需要查看Unicode的CLDR (公共地区数据仓库):http://cldr.unicode.org/

它有可能有用的地区和语言列表,因为您可以使用它们的共享标准ISO 639代码(en、de、fr等)将它们映射到一起。

下面是一个有用的JSON存储库:

https://github.com/unicode-cldr/cldr-localenames-full/tree/master/main/en

查看那里的territories.json和languages.json文件。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42027252

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档