对于坚持和重复使用经过训练的机器学习模型有什么建议/最佳实践吗?我正在用Python或R开发模型,那么这些模型必须在生产工作流中用于评分(在没有R的情况下)。例如,在R.中可以有一个logistic回归模型,现在需要对这个模型进行新的观察。评分引擎必须是快速和可伸缩的。我想过要跟著
对正确的方法有什么想法或建议吗?
发布于 2014-02-13 12:24:50
Scikit-学习是该领域的一个成熟库,它使用模型持续存在的泡菜。我想您正在编写自己的函数来训练模型,但是查看已建立的库可以告诉您最佳实践。
另一方面,JSON可以从多种语言中读取。这是它的主要优势。如果您为模型服务的计划来自另一种语言,而且您的模型是相当简单的Python对象,那么将它们序列化为JSON应该非常容易。
发布于 2017-09-20 05:59:20
您可以在python中使用泡菜保存和加载模型,如下所示,
import pickle
s = pickle.dumps(clf)
clf2 = pickle.loads(s)另一种方法是在内部携带大型numpy数组的对象上使用joblib,这是更有效的方法,就像安装的scikit学习估计器的情况一样。
from sklearn.externals import joblib
joblib.dump(clf, 'filename.pkl')
clf = joblib.load('filename.pkl') 然后,这个模型可以作为RESTful API部署到生产中。
发布于 2020-05-17 13:28:34
你可以用信息包。它使用类似于JSON的格式来存储模型。速度快,占用的内存也少。味精包
https://stackoverflow.com/questions/21753928
复制相似问题