首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏运维之路

    事中故障处理(4)故障定位

    故障恢复指恢复业务连续性的应急操作,很多故障是在不断尝试验证解决恢复的动作,所以故障恢复环节与故障定位环节有一定的交叠,或在这两个环节之间不断试错的循环,即故障恢复操作可能和故障诊断是同时,也可能是诊断之后或诊断之前 1.已知预案下的恢复三把斧 在故障管理过程中,通常大部分故障有一些明确的故障恢复预案,比如基础设施、服务器、网络设备、网络线路,以及应用系统层中关于服务可用性等故障因素,以及基于历史故障经验积累的方案。 为了提升切换效率,除了建立切换工具,还要定期进行切换演练,确保切换操作正确性、时效性、可靠性 2.启用架构高可用策略 架构高可用性通常指系统架构通过专门的设计,从而减少停工时间,而保持其服务的高度可用性 、数据完整性的故障恢复,这些故障恢复通常需要现场临时决断恢复。 结束 注:“3.4 事中处置”另外3个环节内容链接: 1.故障发现、故障响应 2.故障定位

    1.9K31发布于 2021-10-08
  • 来自专栏运维之路

    3.4 事中故障处理(3)故障定位

    故障定位指诊断故障直接原因或根因,故障定位有助于故障恢复动作更加有效。故障定位通常是整个故障过程中耗时最长的环节,定位的目标围绕在快速恢复的基础上,而非寻找问题根因,后者由问题管理负责。 2)已知预案启动 对于疑难杂症或重大故障,我们认为故障诊断过程中,应该采用两条操作路径,一是前面提到的基于专家经验的尝试性的诊断,另一点是围绕已知预案的尝试启动。 性能管理,AIOps等场景的工具应用,将有利于研发团队在故障定位环节,提升代码分析能力。 2.定位工具: 1)日志 对于运维而言,日志是运维了解硬件及软件内部逻辑的一面窗口。 2)链路 这里提的链路主要包括纵向与横向的依赖关系,纵向关系指从生产对象的部署关系建立的从基础设施、网络、计算资源服务器、存储、虚拟机、容器、主机、应用系统、应用、服务的关系,通常围绕应用系统进行扩散; 对于多个监控告警进行告警事件的收敛管理,基于CMDB关系数据进行初步的定位。 利用监控数据与AIOps算法,构建智能化的故障定位场景应用,增加故障定位的能力。

    2.2K20发布于 2021-09-14
  • 来自专栏火丁笔记

    通过Strace定位故障原因

    在面对故障的时候,我也有类似的感觉:不怕出故障,就怕你不知道故障的原因,故障却隔三差五的找上门来。 在继续定位故障原因前,我们先通过「man brk」来查询一下它的含义: brk() sets the end of the data segment to the value specified by 3119 24 total 显而易见,「brk」已经不见了,取而代之的是「recvfrom」和「accept」,不过这些操作本来就是很耗时的,所以可以定位 「brk」就是故障的原因。 … 拥抱故障,每一次故障都是历练。正所谓:天将降大任于斯人也,必先苦其心志,劳其筋骨,饿其体肤,空乏其身,行拂乱其所为,所以动心忍性,增益其所不能。

    81620编辑于 2021-12-14
  • 来自专栏网络工程师笔记

    OSPF邻居down故障定位

    一 OSPF邻居down故障原因 本类故障的常见原因主要包括: BFD故障; 对端设备故障; CPU利用率过高; 链路故障; 接口没有Up; 两端IP地址不在同一网段; RouterID配置冲突; 两端区域类型配置不一致; 两端OSPF参数配置不一致; 二 故障定位步骤 1、通过日志查看OSPF邻居Down的原因 执行display logbuffer size LLDown(NbrEvent=6) 发生邻居状态机LLDown事件,表示由下层协议通知邻居不可达到,出现这种情况请执行步骤2。 此时,可以执行display interface [ interface-type [ interface-number ] ]命令查看接口状态,排查接口故障2、检查链路是否故障 请执行ping命令和在接口视图下执行display this interface命令,检查设备链路是否故障(包括传输设备故障)。如果链路正常,请执行步骤3。

    2.7K20发布于 2021-05-17
  • 来自专栏Forrest随想录

    故障定位更重要的是:故障定界

    前面发的Observability的文章,引起了不少的共鸣,在群里或私聊时很多朋友提到一个点: 故障处理时,运维的逻辑是快速恢复,所以根因是什么不重要,但是不知道根因发生的位置在哪儿,怎么做应急处置呢 这是个非常好的问题,这里我们就要区分两个经常挂在嘴边,但是确很少有人去能理解透彻的概念:定界和定位。 我们讲故障时可以不用定位,指的是在故障时,不用去定位故障原因是什么,但是不能不做定界。 重要的事情讲三遍: 定界和定位是两回事。 定界和定位是两回事。 定界和定位是两回事。 定界不做,那接下来的恢复就无从谈起了。 举个简单的场景案例: 当一次故障发生,业务指标受影响,硬件层面、网络层面、数据库层面,分布式组件层面、存储层面、应用层面,可能都会有告警。 所以,定界的能力,其实比定位更重要,定界必须要高效,定位在绝大多数情况下是可以在事后做的。 一定一定要区分开看,不能混为一谈。

    2.1K30编辑于 2022-04-27
  • 来自专栏程序员的成长之路

    网络故障排除工具 | 快速定位网络故障

    来自:数据中心运维管理 网络故障排除对于网络技术专家和网络工程师是颇具挑战的工作。每当添加新的设备或网络发生变更时,新的问题就会出现,而且很难确定问题出在哪里。 每一位网络工程师或专家都有自己的经验和必备工具,能让他们快速定位网络故障。以下的这些工具,是否是你的工具箱中的选项。 1. Nmap Nmap是开源工具,它被称作网络故障排除的“瑞士军刀”。 2. Netstat 随着网络复杂性的增加,需要简化网络管理让网络管理员的时间和输入更加有效。Netstat在类似于Unix的操作系统(包括Windows)上很有用。 Batfish 强烈建议你将网络配置分析添加到故障排除工具包中。 更好的是,可以使用Batfish或类似的验证工具来确保网络故障不会发生。 15. Fiddler 当考虑网络故障工具时,现在可用的SaaS很多。

    2.3K20发布于 2020-11-06
  • 来自专栏网络工程师笔记

    BGP邻居无法建立故障定位

    一 BGP邻居无法建立故障原因 本类故障的常见原因主要包括: BGP报文转发不通 ACL过滤了TCP的179端口 邻居的Router ID冲突 配置的邻居的AS号错误 用Loopback 用Loopback口建立EBGP邻居未配置peer ebgp-max-hop peer valid-ttl-hops配置错误 对端配置了peer ignore 两端的地址族不匹配 二 故障定位步骤 1、使用ping命令检测BGP邻居之间是否可以Ping通 如果可以Ping通,则说明BGP邻居之间有可达的路由并且链路传输也没有问题,请执行步骤2。 如果不能Ping通,请处理Ping不通问题排除链路传输的故障问题。 2、检查是否配置ACL禁止TCP的179端口 在两端执行display acl all命令查看是否禁止TCP的179端口。 <HUAWEI> display acl all Advanced ACL 3001, 2 rules ACL's step is 5 ACL's match-order is config rule

    2.3K10发布于 2021-05-17
  • 来自专栏猫头虎博客专区

    硬件故障诊断:快速定位问题

    在日常的计算机使用过程中,硬件故障是无法避免的问题。但如何快速、准确地定位到问题所在,是每个技术爱好者和专业人士都应该掌握的技能。 引言 硬件是计算机的基础,但随着时间的流逝和使用的增加,硬件的老化和故障是不可避免的。对于IT从业者和技术爱好者来说,快速、准确地定位硬件故障,不仅可以节省时间,还可以避免不必要的损失。 正文 1. 常见的硬件故障及其原因 1.1 硬盘故障 老化:长时间使用导致的性能下降。 物理损坏:如摔打、高温等。 软件冲突:如病毒、恶意软件或者软件冲突导致的硬盘故障。 1.3 显卡故障 过热:长时间高负荷运行导致显卡过热。 驱动问题:显卡驱动不兼容或者损坏。 2. 诊断工具和方法 2.1 硬盘检测工具 CrystalDiskInfo:检测硬盘健康状态。 总结 硬件故障是计算机使用过程中的常见问题,但通过正确的诊断和处理方法,我们可以快速解决问题,确保计算机的正常运行。希望这篇文章能帮助大家在面对硬件故障时,有更多的自信和方法。

    1K10编辑于 2024-04-09
  • 来自专栏视频AI

    zookeeper Watch丢通知故障定位

    在下面的描述中,ZK指的是zookeeper,Watch丢通知故障简称为丢消息,因个人水平的原因,文章中定位出的原因,未必是真实的原因,仅供参考。 背景介绍 在我深度参与的一个计算平台项目中,团队第一次使用ZK作为配置中心,ZK的功能:(1)存储和固化配置;(2)在配置发生更新的时候,通知多个工作节点拉取新的配置。 定位过程 首先简单介绍代码。 针对这个故障,考虑到在网络故障的短暂时间内存在丢消息的可能,因此解决方案比较直接: func (m *McAgent) HandleEvent(ev zk.Event) { switch 从故障Agent的日志看,没有任何异常,也没有任何ZK连接变化相关的日志信息。去ZK节点上捞取日志,通过一系列检索过程,发现了故障场景的共性。

    3.1K60发布于 2020-03-24
  • 来自专栏网络工程师笔记

    如何收集设备日志用于故障定位

    2 收集日志信息 当设备出现故障时,收集设备日志信息,有助于用户了解设备运行过程中发生的情况,定位故障点。 日志信息主要记录用户操作、系统故障、系统安全等信息,包括用户日志和诊断日志。

    1.2K20发布于 2021-05-17
  • 来自专栏TKE学习分享

    TKE常见问题以及故障定位

    1.长连接服务:滚动更新导致负载不均 建议: client 侧设置连接过期时间或者达到一定请求数就重连 2.高并发服务: ipvs 下,高并发 client 导致 “no route to host” accept过慢),从而队列溢出丢包; k8s_sysctl.png 使用 K8S sysctls 特性设置 somaxconn (此特性在 k8s v1.12 beta,默认开启); sysctl_2. cache 优化: 改造业务,避免每次请求都查dns,比如 java 设置 networkaddress.cache.ttl ; 部署 NodeLocal DNS 作为本地 DNS 缓存 常见故障定位 2、查看日志; 使用 kubectl logs 查看容器日志 (-p 可看上次退出日志): $ kubectl logs {podname} -n {namespaces} 3、查看资源配置; 使用 端口区间 (30000-32768); 外部服务防火墙没有放开容器网段 (如 CDB、自建 DNS); DNS 异常; 高负载; 进程没有监听端口; 12、节点状态异常; 可能原因: 节点高负载; 磁盘故障

    2.9K30发布于 2020-06-16
  • 来自专栏一猿小讲

    抓包神器 Wireshark,帮你快速定位线上网络故障2

    在这里要重点提一下过滤器表达式,对于日常快速定位问题很有帮助。 ? 2 Wireshark:看透 TCP 的三次握手 在正式分析 TCP 协议建立连接的数据包之前,先介绍一下它的工作原理,以帮助老铁们更容易理解传输的数据包。

    1.7K11发布于 2020-12-29
  • 来自专栏vivo互联网技术

    vivo 故障定位平台的探索与实践

    作者:vivo 互联网服务器团队- Liu Xin、Yu Dan本文基于故障定位项目的实践,围绕根因定位算法的原理进行展开介绍。 如果使用故障定位平台,只需从vivo的paas平台上进入故障定位首页,找到故障服务和故障时间,剩下的事情就交给系统完成。 直接点击图2蓝色的【根因分析】按钮,就可以分析出下图结果:从点击按钮到定位出原因的过程中,系统是如何做的呢?接下来我们看下系统的分析流程。 这种算法可以利用我们较完善的链路数据,可实现的成本低;2、针对下游依赖场景的原因定位,准确率可达85%以上。 六、未来展望1、故障预测:当前我们主要关注服务出现异常后,如何检测异常和定位根因,未来是否能够通过一些现象提前预判故障,将介入的时间点左移,防患于未然;2、数据质量治理:当前我们的监控数据都有,但数据质量却参差不齐

    1.1K30编辑于 2023-01-09
  • 来自专栏运维录

    如何对jvm故障进行排查与定位

    故障类型 ---- 线上的jvm故障基本可以分为两大类: CPU____占用过高。 内存问题,通常可以理解为gc的问题,因为java的内存用gc进行管理。 故障排查兵器谱 ---- 命令行工具 jps等工具都是对tools.jar类的包装,使用起来方便简单.在下边的故障排查中会用到我们这里提到的工具,大家平时应该熟记于心. top: top命令用于实时显示 1. top命令定位到cpu消耗最高的进程,并记住进程pid 通过 top -Hp pid 找到问题线程,记住线程 tid 2. 复制相对慢一些,如果每次都有大量的对象复制,STW(stop the world)时间会延长,另外一种情况是gc和系统的swap同时进行,也会延长STW时间 FGC触发原因有以下几个方面: 1.Old区内存不足 2. ,从而定位代码。

    1.8K10发布于 2019-11-19
  • 来自专栏技术随笔心得

    【线上故障】通过系统日志分析和定位

    在之前的文章中,我们有讲到如何定位内存泄漏和GDB调试-从入门实践到原理。今天,借助本文,来分享另外一种更为棘手的线上问题解决方案-如何在没有coredump文件的情况下,定位程序崩溃原因。 主要是不符合产品的需求逻辑,可能会影响用户体验 线上故障:这个阶段是最严重的,对公司的收益、用户体验都会造成影响,主要为服务不可用等 在本文的示例中,我们针对的第三个阶段,即线上故障进行定位和分析的一种方式 ,希望借助本文,能够对你的故障定位能力有一定的帮助。 原因基本确定,现在我们开始定位问题。 .1 (0x0000003aba200000) libdl.so.2 => /lib64/libdl.so.2 (0x0000003ab9600000) libstdc++.so.6 => /usr

    1.7K20编辑于 2022-08-25
  • 来自专栏CU技术社区

    掌握运维必备技能--问题故障定位

    那么分析问题需要有一定的技术经验积累,并且有些问题涉及到的领域非常广,才能定位到问题。所以,分析问题和踩坑是非常锻炼一个人的成长和提升自我能力。 如果我们有一套好的分析工具,那将是事半功倍,能够帮助大家快速定位问题,节省大家很多时间做更深入的事情。 2. 说明 本篇文章主要介绍各种问题定位的工具以及会结合案例分析问题。 3. 如果大量时间花在CPU上,对CPU的剖析能够迅速解释原因;如果系统时间大量处于off-cpu状态,定位问题就会费时很多。 9.6 性能回退-红蓝差分火焰图 你能快速定位CPU性能回退的问题么? 如果你的工作环境非常复杂且变化快速,那么使用现有的工具是来定位这类问题是很具有挑战性的。 /out.stacks2 > out.folded2 ./FlameGraph/difffolded.pl out.folded1 out.folded2 | .

    1.4K20发布于 2019-10-25
  • 来自专栏网络工程师笔记

    故障案例分享】接口出方向有突发流量导致丢包故障定位

    接口出方向有突发流量导致丢包的组网示意图 二 故障现象 设备上产生QOS/4/hwXQoSPacketsDropInterfaceAlarm_active的告警信息,提示Eth-Trunk的两个成员接口均有丢包 三 故障分析 1、任意视图下执行命令display interface interface-type interface-number查看Eth-Trunk接口及两个成员接口的丢包情况和出方向的带宽利用率 <HUAWEI> display interface eth-trunk 2 Eth-Trunk2 current state : UP (ifindex: 361) Line protocol current 2、任意视图下执行命令display qos buffer-usage interface interface-type interface-number slot slot-id查看缓存是否满。 2、如果Server端支持流量控制功能的话,使能出方向的流量控制功能。

    1.7K20发布于 2021-05-17
  • 来自专栏linux运维

    网络故障排除问题:网络故障排除困难,难以定位问题

    2. 使用 ping 和 tracerouteping 和 traceroute 是最基本的网络诊断工具,可以帮助您确定网络连接的基本状态。ping:检查主机之间的连通性。 使用网络管理工具使用网络管理工具如 Nagios、Zabbix 等,进行更全面的网络监控和故障排除。

    77010编辑于 2025-02-05
  • 来自专栏解决方案,产品应用

    AIM-T300绝缘故障定位仪 具有故障预警功能

    ,当发生绝缘故障时,及时报警,提醒工作人员排查故障。 图片2.功能特点2.1 具有对 IT 系统对地绝缘电阻监测、故障预警及报警功能;2.2 具有继电器报警输出、LED 报警指示等多种故障指示功能;2.3 采用先进的现场总线通讯技术,可与外接报警和显示装置或上位机管理终端通讯 可一键实现仪表硬件电路的故障自检;2.7 断线监测功能。实时监测 L1/L2 与 IT 系统之间的连接状况以及 PE/KE 功能接地线连接的状况。 .参考标准■ IEC 61557-8 《交流 1000V 和直流 1500V 以下低压配电系统电气安全 防护检测的试验、测量或监控设备 第 8 部分:IT 系统用绝缘监测装置》■ IEC 61326-2- 4 《测量、控制和实验室用的电设备 电磁兼容性要求 第 24 部分:特殊要求 符合 IEC  61557-8 的绝缘监控装置和符合 IEC 61557-9 的绝缘故障定位设备的试验配置、工作条件和性能判据

    30630编辑于 2023-09-11
  • 来自专栏国内互联网大数据

    Python代理延迟突增故障定位和优化方法

      Python代理延迟突增故障定位和优化方法  在进行网络爬虫和数据采集时,代理延迟突增是一个常见的问题,影响爬虫的效率和稳定性。 本文将详细分析Python代理延迟突增故障定位和优化方法,并提供实际操作价值的解决方案。   2.网络连接问题:代理服务器所在的网络连接可能不稳定,或者您的本地网络存在问题,影响代理的延迟。  3.代理服务器被封禁:某些网站可能会封禁代理服务器的IP地址,导致代理无法正常工作。   了解这些原因对于故障定位和优化至关重要。  了解原因后,我们可以对故障进行分级处理  1、使用Python的监控工具,如Ping或HTTP请求,定期测试代理服务器的延迟。   使用重试机制发送请求send_request_with_retry("http://www.example.com", "http://your_proxy_ip:your_proxy_port")```  通过定位代理延迟突增的故障原因

    53340编辑于 2023-08-21
领券