文章/答案/技术大牛

发布

社区首页 >问答首页 >Python语言中的民族智能词干/引理

问Python语言中的民族智能词干/引理
EN

Stack Overflow用户

提问于 2017-02-03 15:07:25

回答 1查看 1K关注 0票数 4

我正在使用Python，我想找到一些主要指国家的单词的词根。一些例子说明了我需要的是：

西班牙人应该给我西班牙。
英语应该给我英格兰。
美国人应该给我美国。
尼日利亚应该给我尼日利亚。
希腊人(复数)应该给我希腊。
波多黎各人(复数)应该给我波多黎各。
葡萄牙人应该给我葡萄牙语。

我在NLTK模块的波特，兰开斯特和雪球干细胞上做了一些实验。但是波特和斯诺波尔根本不改变记号，而兰开斯特太咄咄逼人了。例如，美国人的兰开斯特茎是"Am"，这是非常糟糕的，我也玩过一些WordNet狐猴，但没有成功。

是否有办法取得上述结果，即使它只对国家有效？

lemmatization

python

nltk

stemming

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-02-03 15:51:25

您可能需要查看Unicode的CLDR (公共地区数据仓库)：http://cldr.unicode.org/

它有可能有用的地区和语言列表，因为您可以使用它们的共享标准ISO 639代码(en、de、fr等)将它们映射到一起。

下面是一个有用的JSON存储库：

https://github.com/unicode-cldr/cldr-localenames-full/tree/master/main/en

查看那里的territories.json和languages.json文件。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/42027252

复制

相似问题

问Python语言中的民族智能词干/引理
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python语言中的民族智能词干/引理EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python语言中的民族智能词干/引理
EN