我有一个包含时间戳数据的非常大的数据集。到目前为止,我已经加载了整个数据集,以便使用python (statsmodels.api、statsmodels.formula.api、keras.models.Sequential)来训练一些模型。现在,我想用所有的历史数据一次训练模型,然后用新的数据更新模型(每天我都有新的样本)。使用这些python库是可能的吗?谢谢!
发布于 2018-04-06 13:02:29
这就是机器学习模型的用途.(根据输入的数据来预测他们认为在近期内会发生什么)。
一个简单的答案是
数据的前几天是最重要的,你需要对你的模型进行测量和监视。
和任何增量学习一样,你可以学习更多的新东西,但也比不学习新东西更不适合过去。因此,这就是为什么要对使用增量学习的模型执行监视(特别是在生产系统上)。
前提是其他事物与时间保持相似。(相同的预处理,相同的缩放等)
但是假设您每天都有大量的数据,那么几乎在月底时,模型可以完全针对最后几个月的数据进行培训,否则需要保留检查点。
发布于 2019-07-27 09:04:21
用所有的历史数据一次训练模型,然后用新的数据更新模型(每天我都有新的样本)
似乎你指的是增量ML算法--超越了“实验数据科学”的思维方式。
有关算法设计和使用的示例,请参阅https://scikit-learn.org/stable/auto_例子/分解/情节_增量式_pca.html上的“增量主成分分析”。
如果这有帮助的话,那么您可能想了解一下#ConceptDrift。
一些资源
https://datascience.stackexchange.com/questions/29984
复制相似问题