首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何从vocabulary_中保存和加载CountVectorizer?

如何从vocabulary_中保存和加载CountVectorizer?
EN

Stack Overflow用户
提问于 2019-10-11 15:26:26
回答 1查看 1.6K关注 0票数 0

我有一个类,其中我创建了一个countVectorizer,并使用fit_transform创建了向量。这将生成一个vocabulary_。我希望这个带有词汇表的CountVectorizer能够在另一个类中重用它。有人对我有什么建议吗?我已经试着用save_npz做了整件事。但没能正常工作。

这是我的功能,因为我试图拯救整个事情。我不确定这是不是对的。

代码语言:javascript
复制
...
count_vect = CountVectorizer()
...

def vectorizeData():

  clean_data = pd.read_feather('../working/' + PROJECT + '_clean.feather') 

  word_count = count_vect.fit_transform(clean_data.text)

  scipy.sparse.save_npz('../working/' + PROJECT + '_countVec.npz', word_count)

和负载

代码语言:javascript
复制
def ModelData():
  ...
  count_vect_test = scipy.sparse.load_npz('../working/' + PROJECT + '_countVec.npz')
  ...

加载之后,我只有csr_matrix,而不是CountVectorizer对象。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-10-11 16:15:15

你试过用joblib吗?

https://joblib.readthedocs.io/en/latest/generated/joblib.dump.html

代码语言:javascript
复制
import joblib

# example for saving python object as pkl
joblib.dump(vectorizer, "vectorizer.pkl")

# loading pickled vectorizer
vectorizer = joblib.load("vectorizer.pkl")
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58344350

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档