首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >CountVectorizer令牌模式

CountVectorizer令牌模式
EN

Stack Overflow用户
提问于 2017-03-22 14:08:06
回答 1查看 1.5K关注 0票数 3

我需要scikit learn CountVectorizer来识别包含符号'-‘的单词作为一个令牌。这是因为我处理的是不能一分为二的“烹饪时间”这样的标签。

我想重点是在token_pattern参数中设置正确的正则表达式,但我无法做到这一点。

我正在尝试像这样的东西

代码语言:javascript
复制
token_pattern=u'(?u)\b\w\w+(-)?\w+\b'
EN

回答 1

Stack Overflow用户

发布于 2017-03-22 15:36:35

只需编写自己的记号赋予器就更容易了,例如:

代码语言:javascript
复制
def Tokenize(text):
    for char in (',', ';', ':'):  # Here the special chars you want to remove
        text.replace(char, '')
    return text.split(' ')

然后将可调用函数(不带括号的函数)直接传递给CountVectorizer。

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42943936

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档