问CountVectorizer仅返回零
EN

Stack Overflow用户

提问于 2017-03-07 04:05:07

回答 1查看 1K关注 0票数 5

我正在尝试从给定的文档中提取一些特征，给定一组预定义的特征。

from sklearn.feature_extraction.text import CountVectorizer
features = ['a', 'b', 'c']
doc = ['a', 'c']

vectoriser = CountVectorizer()
vectoriser.vocabulary = features
vectoriser.fit_transform(doc)

然而，输出是一个2x3数组，用零填充，而不是：

desired_output = [[1, 0, 0]
                  [0, 0, 1]]

任何帮助都将不胜感激

python

scikit-learn

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-03-07 04:23:03

这是因为CountVectorizer中的默认标记模式将删除任何只有一个字符长度的单词。您可以更改默认令牌模式以修复此问题：

from sklearn.feature_extraction.text import CountVectorizer
features = ['a', 'b', 'c']
doc = ['a', 'c']

vectoriser = CountVectorizer(vocabulary=features, token_pattern=r"\b\w+\b")

vectoriser.fit_transform(doc)

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/42634581

复制

相似问题

问CountVectorizer仅返回零
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问CountVectorizer仅返回零EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问CountVectorizer仅返回零
EN