Virtana推出专为AI工作负载定制的可观测性平台

文章来源：企鹅号 - 至顶科技

总部位于圣何塞的Virtana公司（法律名称为Virtual Instruments USA Inc.）今日推出全新的应用可观测性功能，旨在跟踪从应用代码到基础设施、网络、存储和人工智能工作负载等整个技术栈的性能问题。该公司表示，这种方法解决了其他应用性能监控工具的不足。

该产品反映了现代应用监控方式的转变，因为企业系统变得更加分布式且日益依赖AI工作负载。该平台将应用遥测技术与基础设施级数据相结合，可在混合环境中自动关联性能问题。

Virtana首席执行官Paul Appleby表示："市场上几乎每个参与者都在某个领域表现强劲，然后试图将平台扩展到多个领域。全球2000强企业中几乎每一家最终都会使用6到12个可观测性工具，并试图将它们整合在一起。"

全栈监控方案

这款名为Virtana Application Observability的新产品通过添加更深层的应用级跟踪以及与基础设施和平台信号的关联，扩展了该公司现有的可观测性平台。

Virtana表示，其新平台通过系统依赖图表来应对这些挑战，该图表持续映射应用、基础设施和AI平台之间的关系。系统关联日志、跟踪和基础设施指标等遥测信号，识别性能问题的最可能根本原因。

AI驱动的根本原因分析可识别延迟、故障或约束的起源位置，并通过支持证据优先处理最可能的限制依赖项。这个具备Kubernetes感知能力的平台可在容器环境中提供对集群、工作负载、节点和资源竞争的可见性。

AI使可观测性变得复杂

Virtana在产品发布的同时公布了公司的新研究，表明可观测性工具正在努力跟上现代企业环境的步伐。对负责企业基础设施和应用的IT领导者的调查发现，尽管在监控工具上投入巨大，但52%的受访者报告存在持续的可见性差距。

Appleby表示，随着组织从人工智能实验转向大规模部署，复杂性正在增加。碎片化减慢了事件响应速度，迫使IT团队手动关联不同系统中的事件，而AI智能体的运行速度使这项任务变得更加困难。

"可观测性不是关于平均清白时间，"Appleby说，这是指团队证明其组件不是应用故障原因所需的平均时间。"而是关于平均解决时间。"

大规模AI基础设施或"AI工厂"正在加剧这个问题。这是因为AI驱动服务背后的基础设施比大多数组织意识到的要复杂得多。"我们认为AI工厂只是一堆GPU，"他说。"现实是AI工厂是一个极其复杂的系统，GPU只是其中的一部分。"

由于这些环境跨越数据管道、网络、存储和计算机系统，性能故障几乎可能在栈中的任何地方产生。这意味着诊断这些故障的唯一实用方法是监控整个系统而不是孤立的组件。

Virtana的研究表明，行业可能还没有准备好迎接这种转变。"高管对企业准备情况的看法与IT组织的实际想法之间存在很大脱节，"Appleby表示。"至少25%的AI任务失败。"其他行业研究表明这个数字要高得多。

Virtana表示，新的Application Observability功能现已立即可用。与大多数竞争平台不同，定价将基于设备而不是数据量。"我们专注于推动业务成果，按数据收费无法帮助客户实现这一目标，"他说。

Q&A

Q1：Virtana Application Observability与传统应用性能监控工具有什么不同？

A：传统APM工具主要关注代码级监控，而Virtana采用"系统级可观测性"方法，结合应用遥测技术与基础设施级数据，能够在混合环境中自动关联性能问题，更快识别根本原因。

Q2：为什么AI工作负载会增加可观测性的复杂性？

A：AI基础设施远比想象复杂，不只是GPU，而是跨越数据管道、网络、存储和计算机系统的复杂系统。性能故障可能在技术栈任何地方产生，需要监控整个系统而非孤立组件。

Q3：Virtana平台的定价模式有何特色？

A：与大多数竞争平台不同，Virtana基于设备数量而不是数据量定价。公司认为按数据收费无法帮助客户实现业务成果，他们专注于推动实际的业务价值。

相关快讯