搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏SRE运维进阶之路
Etcd 故障排查
72310编辑于 2023-06-23
来自专栏linux
网络问题故障排查
网络问题故障排查一、服务器网络卡慢参考文档https://cloud.tencent.com/document/product/213/14633 1、检查本地访问域名速度 https://itango.tencent.com DNS是否生效情况 nslookup 地址 5、使用MTR分析网络延迟及丢包 https://cloud.tencent.com/document/product/213/14638 二、CDN网络访问故障 CDN网络故障原因排查https://cloud.tencent.com/document/product/228/59530 1、检查CDN是否生效以及是否需要刷新预热 https://cloud.tencent.com
33610编辑于 2025-07-04
来自专栏数据和云
MogDBopenGauss 故障排查思路
前提当我们收到反馈说数据库响应慢或者压测过程中数据库有报错，第一步先收集数据库服务器资源使用情况，这一步是处理所有故障的前提。备节点故障：通过网络及数据库日志信息，判断节点故障原因，并尽快恢复主备节点之间的复制关系，当故障无法快速解决时，建议修改数据库参数来改变主库Xlog保留大小。
1.3K51发布于 2021-10-13
来自专栏从入门到出门
线上故障排查方案
⼀般包括以下⼏项，也可以将此理解为排查顺序：业务⽇志分析排查APM分析排查物理环境排查应⽤服务排查云⼚商或运营商问题排查1.1 业务⽇志分析排查这个没啥说的，看日志不会吗？情况，找到读写异常的进程⽹络分析使⽤dstat、vmstat等命令查看⽹络流量、TCP连接等情况，分析异常流量1.4 应⽤服务排查应⽤排查，排查应⽤本身最有可能引发的问题，针对各种场景进⾏对应分析CPU 分析使⽤jstack等命令进⾏JVM分析内存分析使⽤jmap等命令分析内存使⽤情况1.5 云⼚商或运营商问题排查排查到了这⼀步的话，只需关注云⼚商或运营商官⽅公告即可。 Arthas⽀持JDK 6+，⽀持Linux、Mac、Winodws，采⽤命令⾏交互模式，同时提供丰富的 Tab ⾃动补全功能，进⼀步⽅便进⾏问题的定位和诊断。3. 其中，定位排查问题时最为常⽤命令包括：jps（进程）、jmap（内存）、jstack（线程）、jinfo（参数）等。
1.1K20编辑于 2022-08-01
来自专栏爱可生开源社区
故障分析 | MySQL 无监听端口故障排查
擅长数据库故障处理。对数据库技术和 python 有着浓厚的兴趣。本文来源：原创投稿*爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。 ---前言最近解决了一个比较基础的问题故障，由于排查过程挺有意思，于是就以此为素材写出了本篇文章。故障现场防火墙什么的均正常但是无法被远程访问到。简单的使用客户端登录了一下。 ERROR 2003 (HY000): Can't connect to MySQL server on '127.0.0.1' (111)根据以往经验大脑中浮现了几个常见的排查此类故障手法1.排查进程存在 mysql/data/3308/mysqld.pid --user=mysql --socket=/mysqldata/mysql/data/3308/mysqld.sock --port=33082.排查端口绑定情况解决方案因为配置 skip-grants-tables 引起无法远程连接 mysql 服务端的故障，解决方法也是非常的简单注释重启。
1.2K20编辑于 2022-09-08
来自专栏杨建荣的学习笔记
故障分析 | MySQL 无监听端口故障排查
---- 前言最近解决了一个比较基础的问题故障，由于排查过程挺有意思，于是就以此为素材写出了本篇文章。故障现场防火墙什么的均正常但是无法被远程访问到。简单的使用客户端登录了一下。 ERROR 2003 (HY000): Can't connect to MySQL server on '127.0.0.1' (111) 根据以往经验大脑中浮现了几个常见的排查此类故障手法 1. 排查进程存在 [root@wx ~]# ps -ef|grep [m]ysql mysql 25973 1 1 8月30 ? 排查端口绑定情况，居然没有绑定端口 [root@wx ~]# lsof -i:3308 [root@wx ~]# ss -nltp|grep 3308 3. 本文关键字：#故障排查# ---- 文章推荐： ‍‍技术分享 | 国产麒麟 arm 上编译安装 xtrabackup8 技术分享 | MySQL 会受到“Unix千年虫“的影响吗‍ 技术分享 | MHA-MasterFailover
2.6K30编辑于 2022-09-14
数据库故障排查
数据库故障排查的基本概念数据库故障排查是指通过系统化的方法识别、分析和解决数据库运行过程中出现的问题。故障可能表现为性能下降、数据丢失、连接失败等。常见数据库故障类型性能问题：查询速度慢、资源占用高。连接问题：无法连接数据库、连接超时。数据一致性问题：数据丢失、数据损坏。配置问题：参数设置不当、权限配置错误。 # 示例：查看MySQL慢查询日志 SHOW VARIABLES LIKE 'slow_query_log'; 性能问题的排查步骤检查系统资源使用情况，确认是否存在资源瓶颈。 -- 示例：查看MySQL当前连接数 SHOW STATUS LIKE 'Threads_connected'; 数据一致性问题的排查步骤检查备份和恢复策略，确保数据可恢复。总结数据库故障排查是一个系统化的过程，需要结合工具和方法，逐步分析和解决问题。通过掌握常见的故障类型和排查步骤，可以有效提高数据库的稳定性和性能。
34610编辑于 2025-08-29
来自专栏图南科技
【故障排查】nginx504
upstream timed out (10060: A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond) while reading response header from upstream
6.1K10发布于 2019-07-12
来自专栏GitHub专栏
Linux 网络延迟故障排查
docker run --name nginx --network=host -itd feisky/nginx:latency b99bd136dcfd907747d9c803fdc0255e578bad6d66f4e9c32b826d75b6812724 链接： https://blog.devgenius.io/linux-troubleshoot-network-latency-a6da740f5cb8
3K10编辑于 2022-05-17
来自专栏网络安全
Xshell SSH 连接故障排查
Xshell连接故障排雷指南（SSH典型问题汇总）一、SSH连接超时（ConnectionTimedOut）常见原因服务器未开机或SSH服务未启动IP地址或端口号错误防火墙/安全组未放行22端口网络不通（路由、防火墙、VLAN隔离）排查步骤确认网络连通性展开代码语言：BashAI代码解释ping服务器IP确认SSH服务状态展开代码语言：BashAI代码解释systemctlstatussshd确认端口监听展开代码语言 permanent&&firewall-cmd--reload二、连接被拒绝（ConnectionRefused）常见原因SSH服务未启动SSH端口被修改但Xshell未同步SSH被TCPWrapper拒绝排查命令展开代码语言配置检查用户身份验证→PublicKey私钥格式需为.pem或Xshell生成的.key五、算法不兼容（Nomatchingkeyexchangemethod）常见于新版Xshell连接老系统（CentOS6） etc/ssh/sshd_configsystemctlrestartsshd七、快速自检清单IP是否正确端口是否开放SSH服务是否运行防火墙/安全组是否放行密钥与权限是否正确八、总结XshellSSH故障排查应遵循网络
80810编辑于 2025-12-22
来自专栏开源部署
linux网络故障排查
在日常使用中，经常会出现无法连通的情况，这个时候我们就需要找到问题出在哪里，这里面给各位提供一个生产环境排查网络故障的大体思路，一般情况下如果遇到网络故障，都是通过筛选的方式一点一点的确定问题所在，首先判断是本机的问题还是网络上其它设备的问题 nslookup dig host 七、追踪数据包 tracepath [参数选项] hostname，域名或 IP地址 #替代了以前的traceroute 参数选项： -4 使用IPV4 -6 使用IPV6=tracepath6 -l 设置初始包的大小默认IPV4 65535，ipv6 128000 -m 设置检测数据包的TTL，默认值为30次； -n 显示IP地址，不查主机名。 124.65.56.141) 16.020ms Too many hops: pmtu 1000 Resume: pmtu 1000 八、硬件故障
2.2K21编辑于 2022-09-15
来自专栏poslua
TCP 常见故障排查
发生错包的原因有很多，但是一般都是由于网线或者网卡等硬件故障造成。如果你的服务器在换了机房或者网络发生了变更之后，延迟明显增加。这个时候你就要怀疑是不是网卡丢包或者是错包引起的了。
1.9K30发布于 2019-08-19
来自专栏洁癖是一只狗
面试-线上故障如何排查
面试经常会被问到java应用出现了问题,如何排查,主要使用下面几个命令基本都能解决执行top命令，查看所有进程占用cpu的排序执行top -Hp pid,查看java进程下的所有线程占用cpu的情况
73420编辑于 2022-12-01
来自专栏入门小站
Linux网络延迟故障排查
原文:https://blog.devgenius.io/linux-troubleshoot-network-latency-a6da740f5cb8 在 Linux 服务器中，可以通过内核调优、DPDK docker run --name nginx --network=host -itd feisky/nginx:latency b99bd136dcfd907747d9c803fdc0255e578bad6d66f4e9c32b826d75b6812724
1.6K40编辑于 2022-06-03
来自专栏测试开发技术
6个常见故障及排查方法，是个测试就得会~
一般是人为修改错误或者文件系统故障。排查方法：系统配置/etc/fstab错误或丢失而无法启动，当启动的时候，出现starting system logger 后停止了。 2、Linux系统网络故障 1 排查1：检查网络硬件检查网络故障，首先要排除网络硬件设备是否存在问题。比如网卡，网线，路由器，交换机等设备是否正常。 3 排查3：检查局域网内主机能否互连检查网络之间的连通是否存在故障，可以先通过ping命令测试局域网主机之间的连通性，然后ping网关，检测主机到网关的通信是否正常。 6 排查6：检查相关服务是否开启在一个应用出现故障时，必须要检测服务本身。比如服务是否开启，配置是否正确等。 6 Read-only file system 错误解决故障现象：涉及到修改/保存条目等需要写磁盘操作的命令都无法使用（如tar、cp、mv、rm、chmod、chown、wget下载等指令），总是提示
1.3K11编辑于 2024-09-29
来自专栏架构驿站
Kubernetes 故障排查工具- Robusta 解析
Hello folks，我是 Luga，今天我们来分享一款用于 Kubernetes Cluster 故障排查的开源工具 - Robusta （罗布斯塔）。作为一个用于多集群 Kubernetes 监控、故障排除和自动化的开源平台，就像 Docker 用于部署应用程序的基础设施即代码一样，Robusta 用于维护 Kubernetes Cluster 应用程序和处理其警报的基础设施即代码 — 01 — Robusta 概述作为一款用于 Kubernetes Cluster 故障排查的开源平台，其本质是为了弄清楚我们当前所构建的 Kubernetes Cluster 的健康状况，并针对所出现的告警行为进行合理解释以及给予我们相关修复建议 Cli 通常具备两个主要用途，具体如下所示：（1）基于自动生成的 Helm 值使的 Robusta 安装变得更容易，便捷，有利于维护，节省资源成本；（2）可以手动触发 Robusta 故障排除工作流程
4.1K101编辑于 2023-03-10
来自专栏http://www.cnblogs.com
网络故障基本排查步骤
网络故障基本排查步骤：
96710编辑于 2022-03-11
来自专栏CNCF
【图解】Kubernetes Deployment 故障排查指南
如果你不知道从何下手，那么在 Kubernetes 中排查故障可能会是一项艰难的任务。文本以超详细的图解说明了如何对 Kubernetes Deployment 进行故障排查，相信会对你有启发。 K8sMeetup 3个步骤排查 kubernetes Deployment 故障在深入探究有故障的 Deploymen 时，必须明确 Kubernetes 是如何工作的。应该从最底层开始为 Deployment 做故障排查。首先，检查 Pod 是否已就绪并在运行中 ? 如果 Pod 已就绪，应该检查 Service 是否能将流量路由到 Pod ? 排查 Ingress 故障如果已经到了这个阶段，那么意味着： Pod 在运行中且是就绪状态； Service 可以分发流量分配到 Pod。但是你仍然看不到应用程序的响应。 K8sMeetup 总结如果你不知从何下手，那么在 Kubernetes 中进行故障排查可能会是一项艰巨的任务。
3.6K30发布于 2021-03-15
来自专栏Ceph对象存储方案
Bluestore下的SSD故障排查
线上发现L版本一个OSD down，不确定是否磁盘故障，之前的filestore排查起来比较熟，换成Bluestore以后，有些细节上的操作不一样，因为用到的是SSD，所以有了这篇排查文档。排查过程定位故障节点 [root@demo-host ceph]# ceph osd tree|grep down 20 1.00000 osd.20 -4ac5-922a-9129e3b96311 1 1 0 wz--n- <5.46t 0 ceph-957c14e6-c45e-4794-a6c4-92e55b267fd6 -4ac5-922a-9129e3b96311 1 1 0 wz--n- <5.46t 0 ceph-957c14e6-c45e-4794-a6c4-92e55b267fd6 ceph-dfe4f8f2-880f-414d-af58-5b3c77ed2628 -wi-ao---- <5.46t 最后保守起见还是手工点亮故障灯，通知机房换盘 [root@demo-host ceph
6.8K51发布于 2019-05-09
来自专栏码农沉思录
JVM 线上故障排查基本操作
今天的文章，就如我们的题目一样，讲的是基本操作，也就是一些排查线上问题的基本方法。为什么这么说呢？最后对代码进行排查。如何操作呢？通过 top 命令找到 CPU 消耗最高的进程，并记住进程 ID。内存问题排查说完了 CPU 的问题排查，再说说内存的排查，通常，内存的问题就是 GC 的问题，因为 Java 的内存由 GC 管理。区内存不够，2 是元数据区内存不够，3 是 System.gc()， 4 是 jmap 或者 jcmd，5 是CMS Promotion failed 或者 concurrent mode failure，6 总结基于文章的标题，我们这个是基本操作，故障排查是说不完的话题，每个故障涉及的知识也都很多，因此，我们在学习了基本的排查之后，还需要学习更多事故排查技术，比如排查 IO，网络，TCP 连接等等。
1.1K40发布于 2019-11-12

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Etcd 故障排查

网络问题故障排查

MogDBopenGauss 故障排查思路

线上故障排查方案

故障分析 | MySQL 无监听端口故障排查

故障分析 | MySQL 无监听端口故障排查

数据库故障排查

【故障排查】nginx504

Linux 网络延迟故障排查

Xshell SSH 连接故障排查

linux网络故障排查

TCP 常见故障排查

面试-线上故障如何排查

Linux网络延迟故障排查

6个常见故障及排查方法，是个测试就得会~

Kubernetes 故障排查工具- Robusta 解析

网络故障基本排查步骤

【图解】Kubernetes Deployment 故障排查指南

Bluestore下的SSD故障排查

JVM 线上故障排查基本操作

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐