文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在NLTK中向Stopword添加更多语言？

问如何在NLTK中向Stopword添加更多语言？
EN

Stack Overflow用户

提问于 2014-01-26 18:58:28

回答 1查看 8.9K关注 0票数 12

我使用带有秒词的NLTK来使用http://blog.alejandronolla.com/2013/05/15/detecting-text-language-with-python-and-nltk/的Alejandro描述的方法来检测文档的语言，而且它工作得相当好。

我还使用了一些未包含在NLTK塞字包中的其他语言，如捷克语和罗马尼亚语，它们与其他语言一样得到错误匹配。这些是断句中的语言：

“消失”、“荷兰语”、“英语”、“芬兰语”、“法语”、“德语”、“匈牙利语”、“意大利语”、“挪威语”、“葡萄牙语”、“俄语”、“西班牙语”、“瑞典语”、“土耳其语”

如何扩展NLTK支持的语言列表？还有其他我可以添加的止损词列表吗？是否有一个文档化的方法，我可以用来创建一个添加我自己的停止列表？

python

nlp

nltk

stop-words

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-01-27 04:59:28

谷歌搜索“罗马尼亚停止语”会带来大量的资源。

如果你想自己做这件事，你只需要找到在所有类型的文本中常见的单词。(你链接到的那篇文章对什么是停止词的解释很差。)好的候选词是冠词、助词(如果你的语言有它们，并且它们是孤立的)、连词、代词和一些类型的副词。

(Rachel Tsz-Wai Lo, Ben He, Iadh Ounis; University of Glasgow, 2008)文档是一种自动查找停止词的方法。我没有看过这个方法或结果。

stopwords.pl似乎有一个实现。(该评论除了文章之外还有其他名称；不确定这是怎么回事。)

票数 6

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/21367779

复制

相似问题

问如何在NLTK中向Stopword添加更多语言？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在NLTK中向Stopword添加更多语言？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在NLTK中向Stopword添加更多语言？
EN