首页
学习
活动
专区
圈层
工具
发布

Databricks推出ZeroOps,以智能体技术解决企业AI运维难题

Databricks正在为其所观察到的企业AI运维乱象提供解决方案。在Data + AI峰会上,该公司发布了Genie ZeroOps,直指众多数据团队心中的痛点:如今,构建数据管道和模型已不再是最大的挑战,如何保障它们持续稳定运行才是真正的难题。

随着数据规模不断扩张、AI工作负载持续增加,工程师的大量时间被日常维护工作所占据。与此同时,AI编码工具加速了开发进程,催生出更多需要人工监管的资产,进一步拉大了团队构建能力与管理负担之间的差距。

Databricks Genie ZeroOps是一项全新的智能体运维能力,旨在实现对数据和AI工作负载的问题监控、排查与修复的自动化。

目前,ZeroOps处于私有预览阶段。它通过AI智能体识别异常,利用Unity Catalog中的元数据和数据血缘信息追溯根本原因,自动生成修复方案,并在隔离环境中验证方案有效性,最终提交人工审核后再应用于生产环境。

分析师指出,Genie ZeroOps回应了企业在运营复杂性方面的真实挑战,尤其是生产环境中数据和AI工作负载维护负担日益加重的问题。

IT咨询公司Kanerika首席分析官Amit Chandak表示:"大多数数据团队花在维持数据管道和模型正常运行上的时间,要远多于构建新系统的时间。"

IT咨询公司Artefact首席技术官Victor Coimbra也印证了这一观点,并指出智能体编码工具的兴起进一步加剧了这一问题——这些工具虽加快了机器学习管道和模型等资产的开发速度,却也带来了更多需要"人工看护"的资产。

KramerERP管理合伙人Robert Kramer指出,这种维护负担严重拖累了生产效率。管理基础设施、部署环境、支持流程和运营工作流等活动耗费大量时间,却无法直接创造业务价值。

HyperFRAME Research的AI技术负责人Stephanie Walter表示:"关键的不同在于智能体这一环节。Databricks正试图从'告警工具'转向'能够诊断问题、提出修复方案并在受治理环境中验证方案、且不会影响生产环境'的系统。"

HFS Research执行研究负责人Ashish Chaturvedi认为,这一转变将深刻改变企业平台团队和开发团队的工作方式:"如果ZeroOps智能体能在后台自动完成监控、排查和修复建议,工程师就能从'执行运维工作'转变为'审核运维结果'。传统意义上'负责构建'与'负责维护'的职责边界将逐渐模糊。"他补充道:"平台团队可以将精力集中在真正新颖的故障上,而不必反复应对那些重复性问题。"

Coimbra认为,这一变化同样会影响企业平台团队的扩张方式:"企业不必再随着每增加一条数据管道就同步增加运维人员,同一个团队可以覆盖更大的工作范围。"

不过,鉴于该功能仍处于预览阶段,Kanerika的Chandak提醒说,关于人员缩减的效果可能存在夸大之嫌。

Chandak还提出了"技能退化"的风险——Coimbra对此表示认同:"如果工程师因为智能体包揽了调试工作而停止亲自排查问题,团队在遭遇智能体无法处理的情况时,将面临真实的能力暴露风险。"

独立顾问David Linthicum表示,Genie ZeroOps对CIO很有吸引力,因为它将创新能力与运营规范结合起来,而不是将两者对立。"其核心价值十分明确:降低运营阻力、缩短部署周期、提升服务韧性,并在不随工作负载同比扩编的前提下落实治理要求。"

Chaturvedi指出,这种效率与可靠性的结合,有助于CIO控制数据和AI环境运营中最大的成本之一:"ZeroOps直指维护工作消耗的时间成本。CIO们一直眼看着数据工程预算持续膨胀,而其中用于创造新价值的比例却不断萎缩。"

Linthicum同时提醒CIO们,应以审慎的态度评估这一新产品,并要求Databricks提供可验证的指标数据。

Chandak表示,核心指标应包括平均检测时间、平均解决时间,以及智能体在无人介入情况下自主关闭的事件比例。他还补充道:"在这些指标之下,CIO还应追踪根本原因判断的准确性、修复方案的误报率,以及工程师未经修改直接采纳方案的比例——最后这个数字,才是真正衡量信任度的信号。在成本方面,应将每起事件的处理成本与人工处理基准进行比对,并扣除智能体自身的计算成本。"

Chandak还指出,这种审慎态度对CIO而言尤为重要,因为Databricks正在进入一个新兴赛道:"大多数厂商的智能体产品都聚焦于构建层和使用层,帮助用户编写代码或查询数据。ZeroOps则瞄准运维层,这一赛道目前竞争者较少。"

Q&A

Q1:Genie ZeroOps是什么?它主要解决什么问题?

A:Genie ZeroOps是Databricks推出的一项智能体运维能力,目前处于私有预览阶段。它的核心目标是解决企业AI和数据工作负载在生产环境中的维护负担问题。通过AI智能体自动完成异常识别、根因追溯、修复方案生成和隔离环境验证等工作,最终由人工审核后应用到生产环境,从而减少工程师在日常运维上花费的时间。

Q2:ZeroOps会不会导致工程师"技能退化"?

A:这是分析师提出的一个真实风险。Kanerika首席分析官Chandak指出,如果工程师长期依赖智能体完成调试工作,团队在遭遇智能体无法处理的复杂问题时,将面临真实的能力欠缺风险。因此,企业在引入ZeroOps时,需要在提升效率与保持团队核心能力之间找到合理平衡。

Q3:CIO如何评估ZeroOps的实际效果?

A:分析师建议CIO重点关注以下指标:平均检测时间、平均解决时间、智能体自主关闭事件的比例,以及工程师未经修改直接采纳修复方案的比例(这是衡量信任度的关键信号)。此外,还应对比每起事件的AI处理成本与人工处理成本,并扣除智能体自身的计算开销,以评估实际的投资回报。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OJ4Scsrcf781xDn4tOV_28lQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券