文章/答案/技术大牛

发布

社区首页 >问答首页 >持久存储Tf-Idf数据

问持久存储Tf-Idf数据
EN

Stack Overflow用户

提问于 2012-06-19 21:50:21

回答 1查看 2K关注 0票数 3

我想存储TF-IDF矩阵，这样我就不必一直重新计算它。我正在使用scikit learn的TfIdfVectorizer。是将其保存在数据库中，还是将其保存在数据库中更有效？

一些背景:我正在使用k-means聚类来提供文档推荐。由于经常添加新文档，因此我希望存储文档的TF-IDF值，以便可以重新计算聚类。

python

machine-learning

scikit-learn

pickle

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-06-20 22:04:58

酸洗(特别是使用joblib.dump)适合短期存储，例如在交互式会话中保存部分结果或将模型从开发服务器发送到生产服务器。

然而，酸洗格式依赖于模型的类定义，这些模型的类定义可能会从scikit-learn的一个版本更改到另一个版本。

如果您计划长期保留模型并将其加载到scikit-learn的未来版本中，我建议您编写自己的独立于实现的持久性模型。

我还建议使用HDF5文件格式(例如，在PyTables中使用)或其他支持高效存储数值数组的数据库系统。

另外，还可以查看scipy.sparse的稀疏矩阵表示的内部CSR和COO数据结构，以提出一种将这些数据存储在数据库中的有效方法。

票数 8

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/11102429

复制

相似问题

问持久存储Tf-Idf数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问持久存储Tf-Idf数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问持久存储Tf-Idf数据
EN