MLOps(Machine Learning Operations)是一个关注于将机器学习模型开发和部署流程标准化、自动化以及持续集成与持续部署(CI/CD)的实践领域。 MLOps旨在解决机器学习项目在开发、测试、部署和监控过程中的复杂性和挑战,以确保机器学习模型的生命周期管理能够高效、可靠和可扩展。MLOps的关键组成部分:1. ### MLOps的挑战:- **数据管理**:确保数据的质量和一致性。- **环境一致性**:在不同的开发和生产环境中保持模型行为的一致性。 MLOps是一个跨学科领域,它结合了数据科学、软件开发和运维的最佳实践,以实现机器学习项目的成功交付和维护。 随着机器学习技术的不断发展,MLOps在帮助组织高效、可靠地将机器学习模型集成到生产系统中发挥着越来越重要的作用。
别把模型当宠物养:从CI/CD到MLOps的工程化“成人礼”作者:Echo_Wish兄弟姐妹们,我们今天聊一个让我越来越感慨的方向——模型运维(MLOps)。我为什么感慨? 过去软件开发靠CI/CD出生入死,而现在AI模型需要一种全新的方式:MLOps。今天我们从最熟悉的CI/CD聊起,一步一步看它怎么演化成MLOps。 模型要自己进化当监控发现效果下降,我们不应该“骂数据工程师”,应该触发:重新清洗数据重跑特征工程自动训练多模型筛选最优再上线最终形成闭环:展开代码语言:TXTAI代码解释监控→触发重训→自动验证→灰度上线→替换旧模型这是AI工程化最性感的部分 3.数据越积累影响越大CI/CD是对代码迭代价值负责MLOps是对数据累积价值负责数据越大,MLOps越值钱。 如果你做数据,却不懂MLOps:你只是在加工,不是在创造。未来五年,我看准一句话:没有MLOps,AI永远停在Demo阶段。
1 AWS 的现有 MLOps 套件 亚马逊的现有产品完全基于 Sagemaker Studio。它为 ML 开发提供了业内首创的集成开发环境。 MLOps 在几个领域存在重大差距。 没有连贯的 CI/CD 管道可以将它们连在一起。没有这样的管道,感觉用户在使用一系列不同的服务。 大家要么用的是没那么理想的 MLOps 流程,要么建立了自己的 CI/CD 版本。 ML 的自制 CI/CD 框架存在的问题是它们无法推广,因此无法轻松开源。 这样是否可以让他们牢牢地把持最集成的 MLOps 套件的领先地位?我想是这样。亚马逊在开发云解决方案方面具有 3 到 5 年的领先优势(或更多?这里我找不到参考数据)。 但是,现在预测谁将赢得 MLOps 竞赛还为时过早。
这周一直在读 MLOps 的资料,不过现在依然有点似懂非懂,怎么落笔都感觉有些奇怪,MLOps 到底有哪些实践呢?它所说的原则和思路如何在工程上实现,有些摸不着头脑。 MLOps 阅读思路 在了解一个概念之前,可以先读下维基百科: https://en.wikipedia.org/wiki/MLOps 跟着维基百科,可以了解到 MLOps 起源于谷歌的一篇论文Hidden 当然这时还不能叫做 MLOps 。 当然现在的 MLOps 已经有了官网和 Roadsmap。 剩下的一系列知乎专栏文章,可以说非常全面的讲了 MLOps。
在企业应用中,除了一线科技巨头公司,也很少看到针对商业问题部署和管理ML的解决方案,而这部分正是MLOps(机器学习运维的简称)试图去实践的内容。 如果你是一名数据科学家或ML工程师,你可能会质疑:“我为什么要关心MLOps?我已经把模型做出来了,线下测试效果都很好,把它们带到生产中不是IT团队的工作吗?” 企业在开发ML项目时面临的主要挑战,如模型版本控制、可重复性和扩展性,与其说是工程性的,不如说是科学性的,这使得具备良好MLOps知识和工程化经验变得非常重要和宝贵。 在添加数据和模型元素后,MLOps也将成为ML领域的关键突破。 本文内容摘自《MLOps实践:机器学习从开发到生产》一书,作者李攀登,非参数统计硕士, AlgoLink(专注于MLOps研发与应用)的创始人,出海游戏公司博乐科技数据专家。
1 AWS 的现有 MLOps 套件 亚马逊的现有产品完全基于 Sagemaker Studio。它为 ML 开发提供了业内首创的集成开发环境。 MLOps 在几个领域存在重大差距。 没有连贯的 CI/CD 管道可以将它们连在一起。没有这样的管道,感觉用户在使用一系列不同的服务。 大家要么用的是没那么理想的 MLOps 流程,要么建立了自己的 CI/CD 版本。 ML 的自制 CI/CD 框架存在的问题是它们无法推广,因此无法轻松开源。 数据库 ML 功能 虽然不太算是 MLOps,但亚马逊新的数据库 ML 服务确实属于一个共同的主题——建立一个平稳的生产级 ML 流程,从而完全消除了对运维的需求。 但是,现在预测谁将赢得 MLOps 竞赛还为时过早。
什么是MLOps?MLOps(Machine Learning Operations)是一种将机器学习(ML)模型整合到生产环境中的实践,目的是确保模型在生产过程中的有效性和可靠性。 MLOps 和 DevOps 都是旨在简化和自动化软件应用程序开发和部署的方法。 DevOps 专注于一般软件开发流程和 IT 运营,但 MLOps 专门针对机器学习应用程序的独特挑战和复杂性。 自动模型重训练 - 收集模型监控的指标信息针对性对模型进行重新训练MLOps基础设施和工具MLOps(机器学习运维)是一种方法,旨在加速机器学习应用程序的开发、部署和维护。 为什么要使用星鲸科技(starwhale.ai)这样的专业MLOps平台来进行机器学习实践。 MLOps 之旅,模型评估在机器学习中起着重要作用。
作者 | Kostas Pardalis 译者 | 张乐 审校 | 平川 MLOps 和数据工程之间有很大的重叠。 MLOps 主要是数据工程简而言之,MLOps 是一种新出现的工具类别,用于管理数据基础设施,主要面向 ML 用例,按照设想,这类用例会有独特的需求。 几年过去了,随着热度消退,MLOps 与数据工程的重叠显然比大多数人想象的要多。让我们看看这是为什么以及这对 MLOps 生态系统意味着什么。 介 绍 MLOps 是一个相对比较新的术语。 自那以后,人们对 MLOps 的兴趣一直很高。 MLOps 平台的组成 MLOps 供应商的产品可以划分为多个类别: 模型部署和服务,如 OctoML。 模型质量和监控,如 Weights & Biases。
MLOps 与 DevOps 的区别 MLOps 是一组特定于机器学习项目的工程实践,借鉴了软件工程中更广泛采用的 DevOps 原则。 MLOps 实施原则 图 1 MLOps 实施原则 MLOps 的实施原则是指导如何让我们在 MLOps 中实践。 CI/CD 自动化。 CI/CD 自动化提供持续集成、持续交付和持续部署。 机器学习工程师 / MLOps 工程师: ML 工程师或 MLOps 工程师结合了多个角色的各个方面,因此具有跨领域知识。 MLOps 基础设施和工具 MLOps(机器学习运维)是一种方法,旨在加速机器学习应用程序的开发、部署和维护。 为了实现这一目标,MLOps 使用了许多基础设施和工具。 结语 MLOps 将会越来越受到关注和重视。随着人工智能技术的不断发展和应用,MLOps 将成为机器学习应用的必要条件。
为了战胜此手动过程的挑战,MLOps 就起到了作用,通过设置 CI/CD 系统以快速测试、构建和部署机器学习训练流水线。 于是,MLOps 的概念就出现了,它让全流程变得更顺畅、更加持续,让机器学习越来越工程化。 对于 MLOps 而言,它反而不太关注机器是什么样子,更多的是关注现在的机器学习参数如何划分,神经网络的结构是否要调整,参数是如何调整的,等等。 MLOps 对本身执行的硬件环境关注是相对比较少的。 5 MLOps 只是起点 “机器学习工程化目前还处于早期阶段。” 现在我们终于不再去谈网络模型、谈特征工程这些跟机器学习本身算法相关的了。 MLOps 的出现,让人工智能朝着越来越成熟的工程化迈进了重要的一步。 这是一门全新且令人兴奋的学科,其工具和实践可能会快速发展。
如果您曾经使用过公共云来启用您的应用程序进行自动缩放,即您可以轻松地添加或删除应用程序集群的计算节点功能,那么您已经使用了虚拟服务实例。您甚至可能使用过类似 ssh 的程序登录到您的实例,然后通过这个 ssh 会话远程管理它们。乍一看,Docker 容器实例似乎与虚拟服务器没有什么不同。如果您通过 ssh 登录到 Docker 容器中,与通过 AWS EC2 等公共云服务托管的虚拟服务器的会话相比,您可能甚至感觉不出差别。但是,虽然与 Docker 有关的传统公共云服务虚拟服务器存在相似之处,但 Docker 提供的重要功能是需要知道的。
我想从云计算架构和底层技术、LLM 工程化技术,浅谈一下,在大模型时代下的后台工程化技术发展。 MLOps 的任务包括了: 定义场景 数据收集和整理 模型训练和部署 持续监控和更新 4.2.3 MLOps 架构图 基于数据+模型+代码,最终 MLOps 架构图如下所示: 可靠可追溯的标签化数据 ,在 MLOps 里面同样适用。 4.2.5 MLOps 的关注点 MLOps 还关注整个机器学习工作流程管理和自动化,以及模型的部署和监控,而这恰好是后台工程化思想在 LLM 落地实践上的重要体现。 (2)LLM 工程化技术包括以下方面: 模型训练:LLM 模型的训练需要进行数据预处理、模型结构设计、优化算法选择等多个方面的工程化工作; 模型部署:LLM 模型部署需要将其部署到生产环境中,以便进行实时的自然语言处理任务
机器学习—— 机器学习运维(MLOps) 机器学习运维(MLOps)——提高模型管理和部署效率的必备技能 随着机器学习技术的日益成熟,如何高效地将模型部署到生产环境并持续维护,成为许多企业关注的核心问题 MLOps(机器学习运维) 应运而生,它结合了传统的DevOps理念和机器学习的独特需求,旨在通过自动化和协作提高模型的开发、部署和监控效率。 什么是MLOps? MLOps 示例:构建一个简单的ML流水线 以下是一个使用常见MLOps工具MLflow构建和管理机器学习流水线的示例。我们将训练一个简单的模型,并通过MLOps的流水线管理模型的版本和部署。 MLOps 的优势 提高生产力:MLOps通过自动化减少手工操作,让数据科学家专注于开发更好的模型,而不用过多考虑部署和维护。 结论 MLOps 是应对现代机器学习挑战的强大工具。通过自动化、标准化和持续监控,MLOps 提升了模型的开发、部署和维护效率,确保其在生产环境中的持续高效运行。
一般来说各家公司搞起来的是一个团队,一帮子人做数据,另一帮人做工程化。我们就简单称之为Data Scientist(DS)和Machine Learning Engineer(MLE)。 于是一个概念诞生了:MLOps,就像DevOps一样,来解决model开发到落地之间的差距。方案也不是没有,各家云厂商其实都在做:AI Platform pipeline。 所以光是提供一个AI Platform 是走不通的,最近几年MLOps这个词虽然存在,但是大家普遍认为这是炒概念,没有解决任何实际痛点。 公司需要额外的一群DevOps来管理集群了,也就是实际上的MLOps。(以前那种想让MLE或者DS来做MLOps的思路不能说行不通,只能说不合理… 最后说一句 目前看来,这东西可能真是一片蓝海。 MLOps目前还是很有搞头的
2.4 大模型工程化过去几年时间,我听到太多诸如“GPT 将会替代程序员”、“AI 终究替代人类”等热点话题和争论了,但从技术实践上讲,大模型其实也是后台工程架构的一次最佳实践。 我想从云计算架构和底层技术、LLM 工程化技术,浅谈一下,在大模型时代下的后台工程化技术发展。 MLOps 的任务包括了:定义场景数据收集和整理模型训练和部署持续监控和更新4.1.3 MLOps 架构图基于数据+模型+代码,最终 MLOps 架构图如下所示:图片可靠可追溯的标签化数据数据收集和预处理 ,在 MLOps 里面同样适用。 (2)LLM 工程化技术包括以下方面:模型训练:LLM 模型的训练需要进行数据预处理、模型结构设计、优化算法选择等多个方面的工程化工作;模型部署:LLM 模型部署需要将其部署到生产环境中,以便进行实时的自然语言处理任务
Kubeflow 社区积极开发和支持面向 Kubernetes 的 MLOps,为其用户开发和部署流行的框架,包括 TensorFlow、PyTorch、XGBoost、Apache MXNet 等分布式机器学习 KServe 在简化端到端 MLOps 工作流程方面发挥着重要作用,显着简化了在生产中提供机器学习模型的过程。 该项目可以部署为独立组件或完整的端到端系统。
从技术视角看,这标志着AI开发正从“模型研发”转向“工程化落地”,对开发者的技能结构提出新要求。 一、政策的技术导向:工程化能力成为新重点2025年8月26日发布的《意见》,标志着大模型发展从技术探索迈向规模化应用的新阶段。 “推动大模型工程化落地”:强调将模型能力转化为稳定、可运维的服务的全过程。“模型即服务(MaaS)、智能体即服务(AgentaaS)”:定义了未来技术团队需要支撑的新业务形态。 开发运维层:熟练的后端开发者和DevOps工程师,对TensorFlow Distributed推理部署、MLflow+Kubeflow构成的MLOps流水线等工具链感到陌生。 DevOps工程师应快速构建MLOps流水线,实现模型训练与部署的自动化。项目实践:通过参与企业级实战项目(如搭建高并发推理平台、设计AI Agent工作流),将知识转化为可证明的经验。
在这个特殊的时间节点,InfoQ 接触到了百度 AI 中台的技术团队,试图了解将全面支持文心一言在产业快速落地的工程化能力具体是什么样子。 当新一轮的技术浪潮来袭,AI 工程化再次成为无法回避的问题。 那么为什么谈论了这么多年,AI 工程化依旧无法寻找到最佳解决方案?MLOps 是最优解吗?如果是,这套方法论具体如何落地? 1 为什么谈论了那么多年,AI 工程化问题依旧无法解决? 虽然 AI 工程化问题谈论了多年,但一直没有很好解决。 MLOps 开发管理服务能力评测,成为国内在开发管理能力上达到旗舰级的 MLOps 平台(面向产品方的最高等级)。 工程化落地,大幅提升 AI 研发和运营的质量和效率。
如今AI也进入产业化新时代,继承者MLOps或者叫AI工程化也越发火热。 Gartner咨询公司将AI工程化列为2022年十二大战略性技术趋势,IDC则预测到2024年60%的企业将MLOps用于机器学习工作流。 △图源:ml-ops.org 这一波浪潮之中,算法的工程化一如既往的跑在前面,模型的自动部署、持续训练甚至AutoML都有较大进展。 与之相对的是,数据的工程化稍显落后。 AI工程化的大背景下,新一代数据标注与管理方法也从实践中逐渐诞生。 另外正如MLOps继承自软件行业的DevOps,Testin云测结合自身优势,将软件测试业务上10多年ToB服务经验也迁移沉淀至云测数据的AI数据服务中,提质增效的作用十分显著。
CML中的MLOps和SDX模型 Cloudera Machine Learning(CML)是Cloudera Data Platform(CDP)上的机器学习端到端工程化平台(CDP之前的年代名字叫做 Github存储库:https : //github.com/fastforwardlabs/mlops-wine-quality-demo 设置您的CML项目 要开始这个示例,我们需要一个有效的项目。 为企业生产ML的未来铺平道路 Cloudera Machine Learning的MLOps功能和ML模型的SDX为生产机器学习工作流程提供开放,标准化和灵活的工具。 Cloudera Machine Learning(CML)可以使用一组扩展的MLOps生产机器学习功能。 组织可以使用CML的新MLOps功能和用于模型的Cloudera SDX来管理和保护ML生命周期,以进行生产机器学习。