我已经一岁了,在ML,并一直在使用jupyter笔记本建立静态模型,做一些分析,并向老板介绍我的结果,因为这都是POC。
现在,我们希望扩展解决方案,使其成为自动的,并且能够自动地输入真实的数据流,并允许模型自动学习,而无需进行基于批处理的更新。
因为,这一切对我来说都是全新的,并不是一个软件开发人员/工程师。你能帮我处理以下问题吗?
( a)是否有像我这样的初学者的在线课程/学院/书籍?
( b)是否有可在线学习模型和更新结果等的python包?或者,为了MlOps目的,我可以参考哪些包列表?
( c)我想通过IRIS数据集的教程来学习,在那里他们可以带领我们了解一旦建立了模型,如何将它投入生产,处理未来数据输入的预处理等。
发布于 2022-07-03 22:36:24
对于初学者来说,我建议使用全压深学习课程,这是对生产中ML的工具和最佳实践的现代概述。正如你在下面看到的,有很多移动的碎片。

你所要求的可以用火花+气流来完成。特别是气流(或类似的工具,如Luigi)允许创建非常定制的数据管道。学习曲线有点陡峭,但是网上有很好的资源。
以上课程应回答您的问题,因为数据方面并不是真正深入学习的具体,但也可以适用于数据科学的工作流程。
发布于 2022-07-03 15:53:45
您可以实时学习,但大多数模型不需要它,因为许多企业不需要直接从新输入中学习。
然而,您可以在每个时间范围(日、周、.)应用自动任务。从该时间范围内收集的新输入中学习。
根据业务的不同,如果新数据太缺乏,则学习过程可能需要旧的数据。
然后,你应该包括质量检查(模型的准确性,测试结果,性能等)。以确保您的模型在生产中运行良好。
由于生产是一个0风险环境,在完全自动化之前,第一次自动化学习应该经过仔细的监督和手动验证。
https://datascience.stackexchange.com/questions/112354
复制相似问题