我有一个类,其中我创建了一个countVectorizer,并使用fit_transform创建了向量。这将生成一个vocabulary_。我希望这个带有词汇表的CountVectorizer能够在另一个类中重用它。有人对我有什么建议吗?我已经试着用save_npz做了整件事。但没能正常工作。
这是我的功能,因为我试图拯救整个事情。我不确定这是不是对的。
...
count_vect = CountVectorizer()
...
def vectorizeData():
clean_data = pd.read_feather('../working/' + PROJECT + '_clean.feather')
word_count = count_vect.fit_transform(clean_data.text)
scipy.sparse.save_npz('../working/' + PROJECT + '_countVec.npz', word_count)和负载
def ModelData():
...
count_vect_test = scipy.sparse.load_npz('../working/' + PROJECT + '_countVec.npz')
...加载之后,我只有csr_matrix,而不是CountVectorizer对象。
发布于 2019-10-11 16:15:15
你试过用joblib吗?
https://joblib.readthedocs.io/en/latest/generated/joblib.dump.html
import joblib
# example for saving python object as pkl
joblib.dump(vectorizer, "vectorizer.pkl")
# loading pickled vectorizer
vectorizer = joblib.load("vectorizer.pkl")https://stackoverflow.com/questions/58344350
复制相似问题