文章/答案/技术大牛

发布

社区首页 >问答首页 >缩小泡菜尺寸TfidfVectorizer

问缩小泡菜尺寸TfidfVectorizer
EN

Stack Overflow用户

提问于 2018-09-24 23:00:20

回答 1查看 548关注 0票数 0

我需要标准化一些参数来构建基于文本的向量。这就是为什么我试图从一组文本文档中选择一个TfidVectorizer。基于这些参数，我需要向量化新的文本文档，它们的特性和权重标准应该与以前的文档相同。

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(
        strip_accents = 'ascii', sublinear_tf=True, min_df=5, norm='l2',
        encoding='latin-1', ngram_range=(1, 2), stop_words=spanish_stopwords,
        token_pattern = r'\w+[a-z,ñ]')
features = tfidf.fit_transform(df.Consumer_complaint_narrative).toarray()

features.shape

(617,22997)

import pickle
pickle.dump(tfidf, open("vectorizer3.pickle", "wb"))

泡菜大小为76.2MB。有办法把这个减少到10 to吗？

sklearn-pandas

tfidfvectorizer

python-3.x

size

pickle

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-09-26 16:21:34

尝试使用gzip

import gzip
import pickle

# writing into file. This will take long time
fp = gzip.open('tfidf.data','wb')
pickle.dump(tfidf,fp)
fp.close()

# read the file
fp = gzip.open('primes.data','rb') #This assumes that tfidf.data is already packed with gzip
tfidf = pickle.load(fp)
fp.close()

此方法可能无法保证将文件大小减少到<10 may。但毫无疑问，它将减少泡菜文件的大小。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52488429

复制

相似问题

问缩小泡菜尺寸TfidfVectorizer
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问缩小泡菜尺寸TfidfVectorizerEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问缩小泡菜尺寸TfidfVectorizer
EN