首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >CountVectorizer令牌器

CountVectorizer令牌器
EN

Stack Overflow用户
提问于 2020-02-27 11:43:47
回答 1查看 739关注 0票数 0

我有一个带有句子的数据,我用了countvectorizer和一个预定义的词汇表。对于一些词汇来说,即使句子中包含字典中的单词,返回值也是0。由于某种原因不起作用的词语清单如下:

代码语言:javascript
复制
* 1 time
* 1 report
* 7 increase
* not a good fit
* not a great fit
* c level
* not a need

CountVectorizer的定义如下:

代码语言:javascript
复制
CountVectorizer(vocabulary=cols,ngram_range=(1,5))

科尔斯是字典的地方

我确信这与令牌程序的定义有关,但不确定如何将其更改为我需要帮助的内容,非常感谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-03-01 09:39:54

刚在另一个帖子上找到了解决方案。正如预期的那样,CountVectorizer中的默认标记化删除了所有特殊字符、标点符号和单字符,这是我的问题。我所需要做的就是更改为令牌模式,如下所示:

代码语言:javascript
复制
vectorizer = CountVectorizer(vocabulary=cols,ngram_range=(1,5),token_pattern = r"(?u)\b\w+\b")

您可以在这里看到完整的解释:full explanation

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60432503

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档