我使用带有秒词的NLTK来使用http://blog.alejandronolla.com/2013/05/15/detecting-text-language-with-python-and-nltk/的Alejandro描述的方法来检测文档的语言,而且它工作得相当好。
我还使用了一些未包含在NLTK塞字包中的其他语言,如捷克语和罗马尼亚语,它们与其他语言一样得到错误匹配。这些是断句中的语言:
“消失”、“荷兰语”、“英语”、“芬兰语”、“法语”、“德语”、“匈牙利语”、“意大利语”、“挪威语”、“葡萄牙语”、“俄语”、“西班牙语”、“瑞典语”、“土耳其语”
如何扩展NLTK支持的语言列表?还有其他我可以添加的止损词列表吗?是否有一个文档化的方法,我可以用来创建一个添加我自己的停止列表?
发布于 2014-01-27 04:59:28
谷歌搜索“罗马尼亚停止语”会带来大量的资源。
如果你想自己做这件事,你只需要找到在所有类型的文本中常见的单词。(你链接到的那篇文章对什么是停止词的解释很差。)好的候选词是冠词、助词(如果你的语言有它们,并且它们是孤立的)、连词、代词和一些类型的副词。
(Rachel Tsz-Wai Lo, Ben He, Iadh Ounis; University of Glasgow, 2008)文档是一种自动查找停止词的方法。我没有看过这个方法或结果。
stopwords.pl似乎有一个实现。(该评论除了文章之外还有其他名称;不确定这是怎么回事。)
https://stackoverflow.com/questions/21367779
复制相似问题