
CloudQ 新功能介绍 :
# | 能力模块 | 解决的真实场景 |
|---|---|---|
1 | 意图诊断模块接入 APM 数据 | 客服反馈"系统卡"、报错率告警、大促前压测复盘——不用切到 APM 控制台翻 Trace,直接问 CloudQ 拿慢接口 Top、错误调用链、P99 分布 |
2 | 接入 TCUM 整体云产品 SLO 可用性数据 | 凌晨被 DB 告警吵醒先判断是不是产品侧 SLO 抖动;变更/发布窗口前自查核心中间件健康度;故障对外发公告前用 SLO 数据交叉验证 |
老问题:客服群里一条"系统好卡",开发要先登 APM 控制台 → 选业务系统 → 找时间范围 → 翻 Trace → 拉慢接口排行,一套下来 5~10 分钟起步;非研发同学(运维、SRE on-call、TL)更是看不懂 APM 控制台。 升级后:直接在 IM 里一句"近 1 小时 XX 业务有没有慢接口",CloudQ 自动识别意图、查 APM、把慢接口 Top、错误调用链、P99 数据直接甩到对话里,研发/运维/管理者都能看懂。
用户问 → 意图识别 → skill_list(枚举诊断能力)
→ skill_load(加载 APM 分析能力)
→ skill_run(权限连通性 + 业务系统拉取)
→ 输出结构化诊断结论未接入 APM 业务系统的账号,CloudQ 会明确告知业务系统数量为 0,并给出接入路径与控制台入口(腾讯云 APM 控制台),避免"假装能查"。
老问题:"我的云资源整体可用性怎么样?" 这种问题,过去 CloudQ 只能告诉你"实例在不在"——但实例在不代表服务好。真正的"可用性"是 SLO 是否达标(成功率、错误率、连接耗时),这套数据腾讯云内部走的是 TCUM 体系,过去客户看不到。 升级后:CloudQ 直连 TCUM 实例级 SLO 数据,把腾讯云内部的产品健康判定逻辑暴露给客户,让客户用上和腾讯云 SRE 一样的口径。
用户问 → 意图识别 → skill_load(加载可用性分析能力)
→ query_tencent_cloud_instance_availability
→ 按产品 × 地域汇总 SLO 异常
→ 输出整体可用性概览一期重点覆盖有状态服务(异常对业务影响大、SLO 更需要被持续关注):
类别 | 产品 |
|---|---|
数据库 | MySQL、MongoDB、TDSQL |
缓存 | Redis |
消息中间件 | CKafka、RabbitMQ、Pulsar、RocketMQ、MQTT |
大数据/搜索 | Elasticsearch、ClickHouse |
📌 后续版本将持续扩展至 CVM、CLB、COS、CDN 等更多核心产品。
未纳入 TCUM SLO 统计的账号,CloudQ 不会误报"一切正常",而是返回"30 分钟内暂无 SLO 数据"并列出三种可能原因(未开通对应产品 / 无实例数据 / 数据未生成),同时提供"拉长到 2 小时再看"等下一步建议。
业务场景 | 升级前怎么干 | 升级后怎么干 |
|---|---|---|
客服反馈"系统卡" | 开发登 APM 控制台找 Trace,5~10 分钟起 | 企微里问一句,30 秒拿到慢接口 Top |
凌晨 DB 告警判责 | 自己一边查代码、一边猜是不是产品侧问题 | 直接问 SLO 状态,1 句话区分"业务 Bug"还是"产品抖动" |
大促/发布前自查 | 多人分别看 APM 控制台 + 监控看板,口径不统一 | CloudQ 一次性给出"APM 慢接口 + 中间件 SLO"双视角 |
故障对外发公告 | 凭感觉写"持续观察中" | 用 TCUM SLO 数据 + APM Trace 写实证型公告 |
月度可用性汇报 | PM 手工拉数、Excel 拼表 | CloudQ 直接出"产品数 × 地域数 × 异常实例数"概览 |
在任意 CloudQ 入口(WorkBuddy / QClaw / LightClaw / 企微 / 飞书 / 钉钉 ……)直接问:
"我的云资源整体可用性怎么样?" "帮我诊断一下应用性能,看看 APM 有没有慢接口"
CloudQ 会自动识别意图、选择数据源、输出结构化结论 —— Just Q IT!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。