搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏运维之路
事中故障处理（4）故障定位
故障恢复指恢复业务连续性的应急操作，很多故障是在不断尝试验证解决恢复的动作，所以故障恢复环节与故障定位环节有一定的交叠，或在这两个环节之间不断试错的循环，即故障恢复操作可能和故障诊断是同时，也可能是诊断之后或诊断之前 1.已知预案下的恢复三把斧在故障管理过程中，通常大部分故障有一些明确的故障恢复预案，比如基础设施、服务器、网络设备、网络线路，以及应用系统层中关于服务可用性等故障因素，以及基于历史故障经验积累的方案。、数据完整性的故障恢复，这些故障恢复通常需要现场临时决断恢复。 4.恢复后信息传递虽然从MTTR角度看，恢复通常以技术指标的恢复为判断条件，但是在实际的故障处置过程中，恢复结束的判断条件通常是验证与信息通报。验证包括技术验证与业务验证。结束注：“3.4 事中处置”另外3个环节内容链接： 1.故障发现、故障响应 2.故障定位
1.9K31发布于 2021-10-08
来自专栏运维之路
3.4 事中故障处理（3）故障定位
故障定位指诊断故障直接原因或根因，故障定位有助于故障恢复动作更加有效。故障定位通常是整个故障过程中耗时最长的环节，定位的目标围绕在快速恢复的基础上，而非寻找问题根因，后者由问题管理负责。 3）测试复现复杂系统的故障定位必然是一个跨团队协同的过程，测试复现是一个协同定位的解决方案。从岗位看，测试与bug打交道的机会最多，对于逻辑、数据引发的故障更敏感。 4）代码分析虽然开发可能不清楚复杂系统完整的上下游关系，部署架构，但一定是最清楚具体逻辑、数据的人角色。与测试复现提到的类似，运维也要为研发团队提供应急协同的工具。对于多个监控告警进行告警事件的收敛管理，基于CMDB关系数据进行初步的定位。利用监控数据与AIOps算法，构建智能化的故障定位场景应用，增加故障定位的能力。 4）数据感知数据感知不仅仅是将数据可视化，而是要从更高维度去感知系统运行状况。
2.2K20发布于 2021-09-14
来自专栏火丁笔记
通过Strace定位故障原因
在面对故障的时候，我也有类似的感觉：不怕出故障，就怕你不知道故障的原因，故障却隔三差五的找上门来。在继续定位故障原因前，我们先通过「man brk」来查询一下它的含义： brk() sets the end of the data segment to the value specified by 3119 24 total 显而易见，「brk」已经不见了，取而代之的是「recvfrom」和「accept」，不过这些操作本来就是很耗时的，所以可以定位「brk」就是故障的原因。 … 拥抱故障，每一次故障都是历练。正所谓：天将降大任于斯人也，必先苦其心志，劳其筋骨，饿其体肤，空乏其身，行拂乱其所为，所以动心忍性，增益其所不能。
81620编辑于 2021-12-14
来自专栏网络工程师笔记
OSPF邻居down故障定位
一 OSPF邻居down故障原因本类故障的常见原因主要包括： BFD故障；对端设备故障； CPU利用率过高；链路故障；接口没有Up；两端IP地址不在同一网段； RouterID配置冲突；两端区域类型配置不一致；两端OSPF参数配置不一致；二故障定位步骤 1、通过日志查看OSPF邻居Down的原因执行display logbuffer size 1-Way Received（NbrEvent=4）发生邻居状态机1-Way Received事件，表示因为对端OSPF状态首先变成Down，从而向本端发送1-Way hello，导致本端OSPF状态也变成如果CPU利用率过高则先解决此问题，关闭一些不必要的功能，否则执行步骤4。 4、检查接口状态是否为Up 请执行display interface [ interface-type [ interface-number ] ]命令查看接口物理层状态，如果接口物理层状态为Down请先处理接口故障问题
2.7K20发布于 2021-05-17
来自专栏Forrest随想录
比故障定位更重要的是：故障定界
前面发的Observability的文章，引起了不少的共鸣，在群里或私聊时很多朋友提到一个点：故障处理时，运维的逻辑是快速恢复，所以根因是什么不重要，但是不知道根因发生的位置在哪儿，怎么做应急处置呢这是个非常好的问题，这里我们就要区分两个经常挂在嘴边，但是确很少有人去能理解透彻的概念：定界和定位。我们讲故障时可以不用定位，指的是在故障时，不用去定位故障原因是什么，但是不能不做定界。重要的事情讲三遍：定界和定位是两回事。定界和定位是两回事。定界和定位是两回事。定界不做，那接下来的恢复就无从谈起了。举个简单的场景案例：当一次故障发生，业务指标受影响，硬件层面、网络层面、数据库层面，分布式组件层面、存储层面、应用层面，可能都会有告警。所以，定界的能力，其实比定位更重要，定界必须要高效，定位在绝大多数情况下是可以在事后做的。一定一定要区分开看，不能混为一谈。
2.1K30编辑于 2022-04-27
来自专栏程序员的成长之路
网络故障排除工具 | 快速定位网络故障
阅读本文大概需要 4 分钟。来自：数据中心运维管理网络故障排除对于网络技术专家和网络工程师是颇具挑战的工作。每当添加新的设备或网络发生变更时，新的问题就会出现，而且很难确定问题出在哪里。每一位网络工程师或专家都有自己的经验和必备工具，能让他们快速定位网络故障。以下的这些工具，是否是你的工具箱中的选项。 1. Nmap Nmap是开源工具，它被称作网络故障排除的“瑞士军刀”。 3. tcpdump tcpdump是网络专家必备的故障排除工具。如果可以有效地使用它，那么可以在不影响无关应用程序的情况下快速查明网络问题。 4. Ping Ping是快速排除网络问题的最基础工具。它是下一代的3、4、7网络层，利用基于C的代理实现零信任安全性，证据链审计合规性，目标细分和低级报告，并且它是开源工具。如果试图找出“服务网格”的用例，可进行一些研究。 11. 更好的是，可以使用Batfish或类似的验证工具来确保网络故障不会发生。 15. Fiddler 当考虑网络故障工具时，现在可用的SaaS很多。
2.3K20发布于 2020-11-06
来自专栏网络工程师笔记
BGP邻居无法建立故障定位
一 BGP邻居无法建立故障原因本类故障的常见原因主要包括： BGP报文转发不通 ACL过滤了TCP的179端口邻居的Router ID冲突配置的邻居的AS号错误用Loopback 用Loopback口建立EBGP邻居未配置peer ebgp-max-hop peer valid-ttl-hops配置错误对端配置了peer ignore 两端的地址族不匹配二故障定位步骤如果不能Ping通，请处理Ping不通问题排除链路传输的故障问题。 2、检查是否配置ACL禁止TCP的179端口在两端执行display acl all命令查看是否禁止TCP的179端口。如果Router ID没有冲突，请执行步骤4。查看其他地址族的邻居可以使用如下命令： display bgp vpnv4 all peer查看所有VPNv4的对等体信息。 1799 0 23:15:30 Established 9999 查看其他地址族的邻居可以使用如下命令： display bgp vpnv4 all peer查看所有VPNv4的对等体信息
2.3K10发布于 2021-05-17
来自专栏一猿小讲
抓包神器 Wireshark，帮你快速定位线上网络故障（4）
4 写在最后纸上得来终觉浅，绝知此事要躬行。本次 Wireshark 分享就写到这里，为了能够让分享不出现纰漏，查阅了很多文档、书籍以及官方资料，归纳汇总一下给老铁，希望对老铁能有所帮助。
2K20发布于 2020-12-29
来自专栏猫头虎博客专区
硬件故障诊断：快速定位问题
在日常的计算机使用过程中，硬件故障是无法避免的问题。但如何快速、准确地定位到问题所在，是每个技术爱好者和专业人士都应该掌握的技能。引言硬件是计算机的基础，但随着时间的流逝和使用的增加，硬件的老化和故障是不可避免的。对于IT从业者和技术爱好者来说，快速、准确地定位硬件故障，不仅可以节省时间，还可以避免不必要的损失。正文 1. 常见的硬件故障及其原因 1.1 硬盘故障老化：长时间使用导致的性能下降。物理损坏：如摔打、高温等。软件冲突：如病毒、恶意软件或者软件冲突导致的硬盘故障。 3.3 选择合适的替换部件当某个硬件部分确实出现故障时，选择合适的替换部件是关键。总结硬件故障是计算机使用过程中的常见问题，但通过正确的诊断和处理方法，我们可以快速解决问题，确保计算机的正常运行。希望这篇文章能帮助大家在面对硬件故障时，有更多的自信和方法。
1K10编辑于 2024-04-09
来自专栏视频AI
zookeeper Watch丢通知故障的定位
在下面的描述中，ZK指的是zookeeper，Watch丢通知故障简称为丢消息，因个人水平的原因，文章中定位出的原因，未必是真实的原因，仅供参考。 image.png 故障现象用户在客户端执行一些配置更新后，经常反馈计算节点的配置没有更新成功，还在跑着旧版本。定位过程首先简单介绍代码。针对这个故障，考虑到在网络故障的短暂时间内存在丢消息的可能，因此解决方案比较直接： func (m *McAgent) HandleEvent(ev zk.Event) { switch 从故障Agent的日志看，没有任何异常，也没有任何ZK连接变化相关的日志信息。去ZK节点上捞取日志，通过一系列检索过程，发现了故障场景的共性。
3.1K60发布于 2020-03-24
来自专栏网络工程师笔记
如何收集设备日志用于故障定位
2 收集日志信息当设备出现故障时，收集设备日志信息，有助于用户了解设备运行过程中发生的情况，定位故障点。日志信息主要记录用户操作、系统故障、系统安全等信息，包括用户日志和诊断日志。
1.2K20发布于 2021-05-17
来自专栏TKE学习分享
TKE常见问题以及故障定位
查询此域名；否则就先依次遍历 search 并拼接到域名后缀查询；默认 ndots 为 5，即便把 service 名称拼全(比如 test.default.svc.cluster.local，4个 cache 优化: 改造业务，避免每次请求都查dns，比如 java 设置 networkaddress.cache.ttl ; 部署 NodeLocal DNS 作为本地 DNS 缓存常见故障定位 n {namespaces} -o yaml # daemonset $ kubectl get daemonset {daemonsetname} -n {namespaces} -o yaml 4、 controller-manager 异常； CNI 网络错误；程序启动慢被存活检查 kill； 7、Pod 发生 Crash；可能原因： cgroup OOM / 系统 OOM ； DNS 故障导致解析失败端口区间 (30000-32768)；外部服务防火墙没有放开容器网段 (如 CDB、自建 DNS)； DNS 异常；高负载；进程没有监听端口； 12、节点状态异常；可能原因：节点高负载；磁盘故障
2.9K30发布于 2020-06-16
来自专栏vivo互联网技术
vivo 故障定位平台的探索与实践
作者：vivo 互联网服务器团队- Liu Xin、Yu Dan本文基于故障定位项目的实践，围绕根因定位算法的原理进行展开介绍。如果使用故障定位平台，只需从vivo的paas平台上进入故障定位首页，找到故障服务和故障时间，剩下的事情就交给系统完成。下图是调用链告警示例：调用链是vivo服务级监控的重要手段，上图红框内原因链接是故障定位平台提供的根因定位能力。 2.3 分析效果通过以上两种方式进入故障定位平台后，首先看到的是故障现场，下图表示服务A的平均响应时间突增。但没有覆盖自身原因造成的故障(如GC、变更、机器问题等)；3、分析结果只能提供大概的线索，最后一公里还是需要人工介入；4、故障定位算是AI领域的项目，开发方式与传统的敏捷开发有一定的区别：角色职责：领域专家
1.1K30编辑于 2023-01-09
来自专栏运维录
如何对jvm故障进行排查与定位？
故障类型 ---- 线上的jvm故障基本可以分为两大类: CPU____占用过高。内存问题,通常可以理解为gc的问题,因为java的内存用gc进行管理。故障排查兵器谱 ---- 命令行工具 jps等工具都是对tools.jar类的包装,使用起来方便简单.在下边的故障排查中会用到我们这里提到的工具,大家平时应该熟记于心. top: top命令用于实时显示 1. top命令定位到cpu消耗最高的进程,并记住进程pid 通过 top -Hp pid 找到问题线程,记住线程 tid 2. )时间会延长,另外一种情况是gc和系统的swap同时进行,也会延长STW时间 FGC触发原因有以下几个方面: 1.Old区内存不足 2.元数据区内存不足 3.cms promotion failed 4. ,从而定位代码。
1.8K10发布于 2019-11-19
来自专栏技术随笔心得
【线上故障】通过系统日志分析和定位
在之前的文章中，我们有讲到如何定位内存泄漏和GDB调试-从入门实践到原理。今天，借助本文，来分享另外一种更为棘手的线上问题解决方案-如何在没有coredump文件的情况下，定位程序崩溃原因。主要是不符合产品的需求逻辑，可能会影响用户体验线上故障：这个阶段是最严重的，对公司的收益、用户体验都会造成影响，主要为服务不可用等在本文的示例中，我们针对的第三个阶段，即线上故障进行定位和分析的一种方式，希望借助本文，能够对你的故障定位能力有一定的帮助。 X86_PF_PK = 1 << 5, }; #endif /* _ASM_X86_TRAPS_H */ error 4代表用户态程序内存访问越界。原因基本确定，现在我们开始定位问题。
1.7K20编辑于 2022-08-25
来自专栏CU技术社区
掌握运维必备技能--问题故障定位
那么分析问题需要有一定的技术经验积累，并且有些问题涉及到的领域非常广，才能定位到问题。所以，分析问题和踩坑是非常锻炼一个人的成长和提升自我能力。如果我们有一套好的分析工具，那将是事半功倍，能够帮助大家快速定位问题，节省大家很多时间做更深入的事情。 2. 说明本篇文章主要介绍各种问题定位的工具以及会结合案例分析问题。 3. 可以提出性能分析的几个问题 What-现象是什么样的 When-什么时候发生 Why-为什么会发生 Where-哪个地方发生的问题 How much-耗费了多少资源 How to do-怎么解决问题 4. 如果大量时间花在CPU上，对CPU的剖析能够迅速解释原因；如果系统时间大量处于off-cpu状态，定位问题就会费时很多。 9.6 性能回退-红蓝差分火焰图你能快速定位CPU性能回退的问题么？如果你的工作环境非常复杂且变化快速，那么使用现有的工具是来定位这类问题是很具有挑战性的。
1.4K20发布于 2019-10-25
来自专栏linux运维
网络故障排除问题：网络故障排除困难，难以定位问题
ping -c 4 192.168.1.1traceroute：显示数据包到达目标主机所经过的路由。traceroute 192.168.1.13. ifconfig（旧版）：ifconfigip（新版）：ip addr show ip link show4. 检查路由表使用 route 或 ip route 命令检查路由表。使用网络管理工具使用网络管理工具如 Nagios、Zabbix 等，进行更全面的网络监控和故障排除。
77010编辑于 2025-02-05
来自专栏网络工程师笔记
【故障案例分享】接口出方向有突发流量导致丢包故障定位
接口出方向有突发流量导致丢包的组网示意图二故障现象设备上产生QOS/4/hwXQoSPacketsDropInterfaceAlarm_active的告警信息，提示Eth-Trunk的两个成员接口均有丢包三故障分析 1、任意视图下执行命令display interface interface-type interface-number查看Eth-Trunk接口及两个成员接口的丢包情况和出方向的带宽利用率 0/19 UP 1 10GE4/0/20 UP 1 --- 0/19 10GE4/0/19 current state : UP (ifindex: 38) Line protocol current state : UP Description: ... <HUAWEI> display qos buffer-usage interface 10ge 4/0/19 slot 4 Total : 11150 cells (2264 KBytes
1.7K20发布于 2021-05-17
来自专栏解决方案，产品应用
AIM-T300绝缘故障定位仪具有故障预警功能
，当发生绝缘故障时，及时报警，提醒工作人员排查故障。，实时监控 IT 系统的运行状况；2.4 具有故障事件记录功能，能够记录故障发生的时间和故障类型，方便操作人员查询分析系统运行状况，及时消除故障；2.5 适用于交流、直流以及交直流混合 IT 系统的绝缘监测 3.型号说明说明：AIM 表示安科瑞绝缘监测装置 T 表示工业场合 300 表示 300 型4.技术参数5.参考标准■ IEC 61557-8 《交流 1000V 和直流 1500V 以下低压配电系统电气安全防护检测的试验、测量或监控设备第 8 部分：IT 系统用绝缘监测装置》■ IEC 61326-2-4 《测量、控制和实验室用的电设备电磁兼容性要求第 24 部分：特殊要求符合 IEC 61557 -8 的绝缘监控装置和符合 IEC 61557-9 的绝缘故障定位设备的试验配置、工作条件和性能判据》6.安装与接线6.1 外形尺寸AIM-T300 外形与安装尺寸（单位：mm）上图依次为嵌入式安装的
30630编辑于 2023-09-11
来自专栏国内互联网大数据
Python代理延迟突增故障定位和优化方法
　　Python代理延迟突增故障定位和优化方法　　在进行网络爬虫和数据采集时，代理延迟突增是一个常见的问题，影响爬虫的效率和稳定性。本文将详细分析Python代理延迟突增故障的定位和优化方法，并提供实际操作价值的解决方案。　　了解这些原因对于故障定位和优化至关重要。　　了解原因后，我们可以对故障进行分级处理　　1、使用Python的监控工具，如Ping或HTTP请求，定期测试代理服务器的延迟。　　 memory_percent}%") print(f"网络带宽: {network_speed} bytes/s")# 检查代理服务器状态check_proxy_server_status()```　　4、使用重试机制发送请求send_request_with_retry("http://www.example.com", "http://your_proxy_ip:your_proxy_port")```　　通过定位代理延迟突增的故障原因
53340编辑于 2023-08-21

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

事中故障处理（4）故障定位

3.4 事中故障处理（3）故障定位

通过Strace定位故障原因

OSPF邻居down故障定位

比故障定位更重要的是：故障定界

网络故障排除工具 | 快速定位网络故障

BGP邻居无法建立故障定位

抓包神器 Wireshark，帮你快速定位线上网络故障（4）

硬件故障诊断：快速定位问题

zookeeper Watch丢通知故障的定位

如何收集设备日志用于故障定位

TKE常见问题以及故障定位

vivo 故障定位平台的探索与实践

如何对jvm故障进行排查与定位？

【线上故障】通过系统日志分析和定位

掌握运维必备技能--问题故障定位

网络故障排除问题：网络故障排除困难，难以定位问题

【故障案例分享】接口出方向有突发流量导致丢包故障定位

AIM-T300绝缘故障定位仪具有故障预警功能

Python代理延迟突增故障定位和优化方法

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

事中故障处理（4）故障定位

3.4 事中故障处理（3）故障定位

通过Strace定位故障原因

OSPF邻居down故障定位

比故障定位更重要的是：故障定界

网络故障排除工具 | 快速定位网络故障

BGP邻居无法建立故障定位

抓包神器 Wireshark，帮你快速定位线上网络故障（4）

硬件故障诊断：快速定位问题

zookeeper Watch丢通知故障的定位

如何收集设备日志用于故障定位

TKE常见问题以及故障定位

vivo 故障定位平台的探索与实践

如何对jvm故障进行排查与定位？

【线上故障】通过系统日志分析和定位

掌握运维必备技能--问题故障定位

网络故障排除问题：网络故障排除困难，难以定位问题

【故障案例分享】接口出方向有突发流量导致丢包故障定位

AIM-T300绝缘故障定位仪 具有故障预警功能

Python代理延迟突增故障定位和优化方法

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

AIM-T300绝缘故障定位仪具有故障预警功能