我正在使用Python,我想找到一些主要指国家的单词的词根。一些例子说明了我需要的是:
我在NLTK模块的波特,兰开斯特和雪球干细胞上做了一些实验。但是波特和斯诺波尔根本不改变记号,而兰开斯特太咄咄逼人了。例如,美国人的兰开斯特茎是"Am",这是非常糟糕的,我也玩过一些WordNet狐猴,但没有成功。
是否有办法取得上述结果,即使它只对国家有效?
发布于 2017-02-03 15:51:25
您可能需要查看Unicode的CLDR (公共地区数据仓库):http://cldr.unicode.org/
它有可能有用的地区和语言列表,因为您可以使用它们的共享标准ISO 639代码(en、de、fr等)将它们映射到一起。
下面是一个有用的JSON存储库:
https://github.com/unicode-cldr/cldr-localenames-full/tree/master/main/en
查看那里的territories.json和languages.json文件。
https://stackoverflow.com/questions/42027252
复制相似问题