文章/答案/技术大牛

发布

社区首页 >问答首页 >HashingVectorizer与TfidfVectorizer导出文件大小

问HashingVectorizer与TfidfVectorizer导出文件大小
EN

Stack Overflow用户

提问于 2018-11-28 21:34:56

回答 1查看 148关注 0票数 0

我正在使用以下代码生成一个模型：

from sklearn.linear_model import SGDClassifier
text_clf = OnlinePipeline([('vect', HashingVectorizer()),
 ('clf-svm', SGDClassifier(loss='log', penalty='l2', alpha=1e-3, max_iter=5, random_state=None)),
])

当我使用以下命令导出此模型时：

from sklearn.externals import joblib
joblib.dump(text_clf, 'text_clf.joblib')

我的text_clf.joblib是45MB。当我用TfidfVectorizer()替换HashingVectorizer()并重新导出时，我的模型是9kb。

为什么会有这样的文件差异，而且无论如何都要减少HashingVectorizer导出的大小。

python

machine-learning

scikit-learn

回答 1

Stack Overflow用户

发布于 2018-11-28 21:44:20

HashingVectorizer是无状态的，因此不会在内存中保留任何内容。这是从HashingVectorizer传递到SGDClassifier的功能的数量。

默认情况下，number of features calculated from the data is

n_features=1048576

因此，SGDClassifier将不得不为所有这些特性保存coef_、intercept_等变量。如果你的问题是多类的，那么这个问题就会增加。对于大于2的类，存储将增加类的数量倍。

需要有关TfidfVectorizer功能的更多详细信息。在TfidfVectorizer.vocabulary_只有9kb的情况下，它的大小是多少？您可以通过以下方式访问：

len(text_clf.named_steps['vect'].vocabulary_)

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53520686

复制

相似问题

问HashingVectorizer与TfidfVectorizer导出文件大小
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问HashingVectorizer与TfidfVectorizer导出文件大小EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问HashingVectorizer与TfidfVectorizer导出文件大小
EN