首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >HashingVectorizer与TfidfVectorizer导出文件大小

HashingVectorizer与TfidfVectorizer导出文件大小
EN

Stack Overflow用户
提问于 2018-11-28 21:34:56
回答 1查看 148关注 0票数 0

我正在使用以下代码生成一个模型:

代码语言:javascript
复制
from sklearn.linear_model import SGDClassifier
text_clf = OnlinePipeline([('vect', HashingVectorizer()),
 ('clf-svm', SGDClassifier(loss='log', penalty='l2', alpha=1e-3, max_iter=5, random_state=None)),
])

当我使用以下命令导出此模型时:

代码语言:javascript
复制
from sklearn.externals import joblib
joblib.dump(text_clf, 'text_clf.joblib')

我的text_clf.joblib是45MB。当我用TfidfVectorizer()替换HashingVectorizer()并重新导出时,我的模型是9kb。

为什么会有这样的文件差异,而且无论如何都要减少HashingVectorizer导出的大小。

EN

回答 1

Stack Overflow用户

发布于 2018-11-28 21:44:20

HashingVectorizer是无状态的,因此不会在内存中保留任何内容。这是从HashingVectorizer传递到SGDClassifier的功能的数量。

默认情况下,number of features calculated from the data is

代码语言:javascript
复制
n_features=1048576

因此,SGDClassifier将不得不为所有这些特性保存coef_intercept_等变量。如果你的问题是多类的,那么这个问题就会增加。对于大于2的类,存储将增加类的数量倍。

需要有关TfidfVectorizer功能的更多详细信息。在TfidfVectorizer.vocabulary_只有9kb的情况下,它的大小是多少?您可以通过以下方式访问:

代码语言:javascript
复制
len(text_clf.named_steps['vect'].vocabulary_)
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53520686

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档