我正在尝试构建一个对回归问题进行预测的flask服务。我有构建模型所需的数据,该模型有大约20列。使用这些数据,我已经建立了一个很好的回归模型。但是在数据上训练模型,我做了很多特征工程,比如对数盒cox变换,一次热编码,由于高度多重共线性而丢弃了几列等,现在特征的数量是35。我在这35个特征上训练了模型,检查了性能,并使用pickle保存了模型。我在flask服务中加载了我的腌制模型。但是现在模型的输入是我的原始数据的格式,它只有20列。
那么,我如何对新的输入集进行所有的特征工程呢?我只能保存训练好的模型,但在传递新数据进行预测之前,我如何进行所有的特征工程呢?
发布于 2021-06-05 00:03:48
特征工程工作一旦成功(经过多次试验),就应该转换成输入处理代码( ML管道的一部分)。这段代码,可能在一些重构之后,应该在输入到训练好的模型之前作为输入处理代码结束。
这通常受可插拔体系结构的支持(如TensorFlow中的Pipeline in sklearn或tf.data类集)。
https://stackoverflow.com/questions/67760432
复制相似问题