首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我如何给CountVectorizer一个波斯语停用词作为参数?

我如何给CountVectorizer一个波斯语停用词作为参数?
EN

Stack Overflow用户
提问于 2019-04-27 09:11:54
回答 2查看 596关注 0票数 0

我尝试在python (google-colaboratory)中使用波斯语的CountVectorizer()停用词。我不知道该如何将波斯语停用词作为函数的参数

例如,here是一个波斯语停用词列表,但我不知道如何将该列表提供给我的代码

vect = CountVectorizer(stop_words='persian', tokenizer = hazm.word_tokenize).fit(txt)

EN

回答 2

Stack Overflow用户

发布于 2020-03-13 14:16:10

您可以简单地将所引用的所有停用词放在python list中,然后将列表传递给CountVectorizer。例如:

代码语言:javascript
复制
persian_stop_words = ["در", "این"]
vect = CountVectorizer(stop_words=persian_stop_words)
票数 1
EN

Stack Overflow用户

发布于 2021-05-10 14:17:45

您可以使用此开源存储库查找波斯语停用词的集合:

https://github.com/kharazi/persian-stopwords

要加载它们,只需将行复制并粘贴到单个文件中(由换行符分隔),然后将其命名为"stopwords.data“。然后,您可以将该文件加载到您的项目中,并将加载的文件作为CountVectorizer "stop_words“参数:

代码语言:javascript
复制
persian_stop_words = loadtxt('stopwords.dat', dtype=str, delimiter='\n')
vect = CountVectorizer(stop_words=persian_stop_words)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55876456

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档