搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏让技术和时代并行
Kubernetes排障指南
kube-system NAME READY STATUS RESTARTS AGE coredns-fb8b8dccf-5g2cx 1/1 Running 0 2d14h coredns-fb8b8dccf-c5skq 1/1 70fd45ac3f1f)"), skipping: failed to "StartContainer" for "kube-flannel" with CrashLoopBackOff: "Back-off 5m0s 这个时候我们需要从quay-mirror.qiniu.com/coreos/flannel地址下载，然后重命名城quay.io，然后执行 kubectl create -f kube-flannel.yml 5）
4.5K30发布于 2019-12-13
来自专栏腾讯云容器专家服务的专栏
POD异常排障
pod 处于以上情况，可通过kubectl describe pod -n<namepsaces> <podname> 查看对应event 展示信息，基于对应报错信息进行解决；
1.4K20发布于 2021-10-28
来自专栏云知识学习
kubernetes 基础集群排障
v1","reference":{"kind":"ReplicaSet","namespace":"default","name":"nginx-2217866662","uid":"c08076ec-5a6a Image ID: docker-pullable://nginx@sha256:0fb320e2a1b1620b4905facb3447e3d84ad36da0b2c8aa8fe3a5a81d1187b884 System UUID: A84ED043-ECAE-46CE-BB9D-7BCF16C5C59E Boot ID: f8d75ea2-2f4e-4fa5-91a5-13aceefa94dd Kernel Version: 3.10.0-514.26.2.el7.x86_64 OS Image SystemUUID:A84ED043-ECAE-46CE-BB9D-7BCF16C5C59E BootID:f8d7 May 18 14:35:16 VM_0_10_centos kubelet[10676
3K120发布于 2018-05-18
来自专栏腾讯云可观测专栏
Kubernetes 排障实战：用 Prometheus 提升集群可用性和排障效率
为了全面打造 Kubernetes 的指标监控体系，自下而上，我们可以将 Kubernetes 从底层资源到顶层应用，分为 5 个不同的层面，用不同的方法和组件分别采集。得到上述指标后，便可灵活定义自己的业务和应用监控大盘：我们也可以使用 PromQL，灵活定义告警规则，例如我们可以定义一个关于订单支付延时的告警： K8s 排障实践接下来，我们将一起探讨常见的 Kubernetes 故障及其根因，并从具体案例出发，分析如何借助 Prometheus，对 K8s 进行全面排障。排障案例如果我们采访 K8s 运维工程师，问他们最常见、最头疼的 K8s 故障是啥，那么遥遥领先的必然是这俩： Pod 处于 pending 状态。满足您全链路、端到端的统一监控诉求，提高运维排障效率，为业务的健康和稳定保驾护航。
1.3K10编辑于 2025-02-11
来自专栏嘉为动态
跨越前后端排障鸿沟，精准排障，让IT人员不“撕逼”
我们以一些典型的场景为切入，来看看排障定位为什么会出现如此困境：01. 运维痛点——排障过程存在困境1）单点用户排障流程过去传统运维单点排障的工作实录：用户纷至沓来，客服电话被打爆，运维人员看看堆积如山的工单汗如雨下。只能一个个工单进行故障排查。 2）前端排障原理与流程当然，随着代码技术的不断演进，现在的程序员一般是不会一行一行的去排查代码的，不然动辄上万行的代码，如此去排障，运维人员、前后端人员早就“崩溃”了。为防止前后端的“撕逼”，我们需要从什么角度去建立前端监控体系，保证前后端的工作定位准确，精准排障呢？03. 对症下药——跨越障碍实现精准排障从用户端来看，任何一个角度出现问题，都会导致用户的体验不佳，导致流失。
82520编辑于 2023-03-29
来自专栏云+技术
网站排障分析命令
print$NF}'|grep-v'[a-z]'|sort|uniq-c 2.查找请求数请20个IP（常用于查找攻来源）： netstat -anlp|grep80|greptcp|awk'{print$5} '|awk-F:'{print$1}'|sort|uniq-c|sort-nr|head-n20 netstat -ant|awk'/:80/{split($5,ip,":");++A[ip[1]]}END
55230发布于 2019-04-09
来自专栏网络工程师笔记
排障还能这么玩？教你5个好用命令（上）
比如说，在两台或多台路由器之间创建路由的时候，比如RIP、EIGRP或OSPF…… 遇到网络故障的时候，你一般会最先使用哪条命令进行排障？是Ping还是Traceroute？排障命令网上一搜，非常多了，但大多数都是讲点理论基础，在实际应用上，差点意思。为了方便你更好地理解和吸收，遇到同样的情况的时候，可以直接复用。今天这篇，先给你说说最熟悉的Ping命令，千万别错过这三个实用排障案例。 01 Ping的原理&功能 “ping”这个词源于声纳定位操作，指来自声纳设备的脉冲信号。排障案例② 使用大包ping对端进行MTU不一致的故障排除案例描述：某次开局，使用RG路由器与其他厂商的某路由器互连，并运行OSPF协议。排障案例③ A能Ping通B，B就一定能Ping通A吗？案例描述：先来看个组网图。
73120编辑于 2023-08-23
来自专栏腾讯技术工程官方号的专栏
Redis延迟问题全面排障指南
这时我们还是需要一个全面的排障流程，不能无厘头地进行优化；全面的排障流程可以帮助我们找到真正的根因和性能瓶颈，以及实施正确高效的优化方案。这篇文章我们就从可能导致 Redis 延迟的方方面面开始，逐步深入排障深水区，以提供一个「全面」的 Redis 延迟问题排查思路。排障事大，但咱也不能冤枉了Redis；首先我们还是应该把其它因素都排除完了，再把焦点关注在业务服务到 Redis 这条链路上。导致 Redis Latency 的具体原因如果使用我们的快速清单并不能解决实际的延迟问题，我们就得深入 redis 性能排障的深水区，多方面逐步深究其中的具体原因了。总结 Redis 排障是一个循序渐进的复杂流程，涉及到 Redis 运行原理，设计架构以及操作系统，网络等等。
2.9K52编辑于 2023-04-29
来自专栏Windows技术交流
腾讯云Window日常排障参考
①安装微软Sysmon并启用 analytic and debug logging
59610编辑于 2025-03-21
来自专栏网络工程师笔记
排障不翻车 | 网络工程师必收藏的排障命令大全。附下载！
以下是30个常用的排障命令附带详细说明和一些用于华为网络设备的命令示例以帮助小白网络工程师更好地理解： 1. Ping测试： • 方法：使用ping命令测试目标设备的连通性。 5. 检查物理连接： • 方法：检查物理连接，确保电缆、插头和端口都连接良好。 • 示例：检查设备面板上的指示灯，确保端口状态正常。 6.
76410编辑于 2023-11-27
来自专栏jeremy的技术点滴
kubernetes中基础服务排障记
wide # 在某个iperf3 client的pod中执行iperf3命令，以测试其到iperf3 server pod的网络状况 $ kubectl exec -ti iperf3-clients-5b5ll orig811/bin/mysqld() [0x1ce5408] /home/mdcallag/b/orig811/bin/mysqld(log_flusher(log_t*)+0x2fb) [0x1ce5fab
2.7K20发布于 2019-06-13
建设大模型训练排障平台：
建设大模型训练排障平台是提升训练效率、降低运维成本、保障研发进度的关键基础设施。以下是构建这样一个平台的系统化方案：一、核心建设目标故障快速定位：分钟级定位硬件/软件/算法故障根源训练过程透明化：实时监控千卡级集群训练状态智能预警：提前发现潜在故障风险（如梯度异常）知识沉淀：构建可复用的排障知识库二全域数据采集层数据类型采集方式采样频率GPU指标（显存/利用率）DCGM/NVML1秒级网络流量RDMA计数器+交换机SNMP5秒级分布式框架日志PyTorch/TF的NCCL日志实时流采集算法指标训练脚本标准输出
27310编辑于 2025-08-15
来自专栏颇忒脱的技术博客
Kublet PLEG不健康问题排障
Node频繁出现“PLEG is not healthy: pleg was last seen active 3m46.752815514s ago; threshold is 3m0s”错误，频率在5-
6.8K20发布于 2019-03-13
来自专栏johnnyxsu技术交流分享
玩转CVM之Cloud-Init排障
1、登录实例 2、rm -rf /var/lib/cloud 3、cloud-init init --local 4、cloud-init init 5、cloud-init modules --mode Windows Cloud-Init 排障思路确认Windows Server内部 cloudbase-init 服务是正常运行 1、登录虚拟机（如果忘记密码或者因为cloudbase-init 服务异常重置密码失败了 image.png 4、打开“注册表”搜索并找到全部的“LocalScriptsPlugin”，确认其值是否为2，如果不是则改为2，如下图所示： image.png 5、确认 CD-ROM 的加载是否被禁用问题4：用户设置了不正确的PATH路径，导致找不到powershell命令，从而重置密码失败 ** 解决方案 ** 恢复默认的PATH路径，保证path路径中包含powershell 问题5：用户设置了过于严格的
7.2K1842发布于 2019-07-16
来自专栏玉龙小栈
网络中出现故障该如何排障？具体排除流程有哪些？【网络排障连载01】
网络工程师经常接到各种求助电话，例如“电脑突然无法上网” 、“网页无法正常显示”、“游戏没法玩了”…… 报告故障：主动沟通确认在电话里询问用户上面的内容，并记录在排障报告中。逐一排查在逐一排查阶段同样需要平衡解决问题的迫切性与引入新故障的风险性之间的矛盾。所以，应该明确告知用户排查工作可能带来的风险，并在得到许可的情况下才能执行操作。有些情况下，通过逐一排查验证推断的过程涉及到网络变更，这时必须做好完善的应急预案和回退准备。解决故障如果通过逐一排查找到了故障的根本原因，并排除了故障，网络故障排除的流程就可以结束了。
2.2K20编辑于 2022-04-18
来自专栏颇忒脱的技术博客
Flannel VXLAN 通信异常问题排障记录
rancher 所在 k8s 集群（local 集群）间歇性挂，而其纳管的另一个生产 k8s 集群没有这个问题。
99120编辑于 2022-11-21
来自专栏JavaEdge
访问数据库超时问题排障
实战干货：编程严选网 1 排障过程系统从圣诞节那天晚上开始，每天晚上固定十点多到十一点多这个时段，大概瘫痪1h左右，过这时段系统自动恢复。系统瘫痪时的现象就是，网页和App都打不开，请求超时。
1.4K10编辑于 2025-12-02
网络无法通信排障指南——小白必看
网络无法通信通用排障流程 ✔ 基础连通性验证 1）ping 本机IP 2）ping 网关 3）ping 同网段设备 4）ping 其他网段 5）traceroute 跳点定位判定逻辑：能否 ping 问题典型现象水晶头歪斜速度跌为10M、随机断链光模块速率不匹配单向链路Up/Down反复抖动光功率过低(>-23dBm即危险) 帧错，丢包增大双绞线过长 > 100m 速率自动降级排障动作 ❌ | | 修复 | switchport trunk allowed vlan add 10,20 5 秒全楼恢复广播风暴 / 环路导致整网卡死现象 ping随机丢包50%+ CPU升到80% 以上交换机流量飙到线速核心排障 show spanning-tree detail show storm-control debug spanning-tree events 解决措施：手段效果 tcp.analysis.retransmission # 重传 tcp.window.size_value < 128 # 窗口过小 -> 可定位MTU、拥塞、丢包点 5️⃣
78210编辑于 2026-02-27
来自专栏Kevinello的技术小站
Redis实战：延迟问题排障指南
Redis 执行 GET、SET、DEL 命令耗时也很久为什么我的 Redis 突然慢了一波，之后又恢复正常了为什么我的 Redis 稳定运行了很久，突然从某个时间点开始变慢了这时我们还是需要一个全面的排障流程，不能无厘头地进行优化；全面的排障流程可以帮助我们找到真正的根因和性能瓶颈，以及实施正确高效的优化方案这篇文章我们就从可能导致 Redis 延迟的方方面面开始，逐步深入排障深水区，以提供一个「全面」的当某进程又需要这些数据且OS发现还有空闲物理内存时，又会把SWAP分区中的数据交换回物理内存中，这个过程称为SWAP IN，详情可参考这篇文章redis 监控指标合理完善的监控指标无疑能大大助力我们的排障系统引起的延迟比在物理机上也要高得多结果就是，即使 Redis 在亚微秒的时间级别上能处理大多数命令，网络和系统相关的延迟仍然是不可避免的Redis实例所在的机器带宽不足 / docker网桥性能问题等排障事大启用并使用 Redis 的延迟监控功能，更好的监控 Redis 实例中的延迟事件和原因导致Redis Latency的具体原因如果使用我们的快速清单并不能解决实际的延迟问题，我们就得深入 redis 性能排障的深水区
1.6K122编辑于 2023-03-05
来自专栏Cyylog技术
Tomcat__05_JVM_排障工具
JVM 运维实用排障工具 1、jps 用来查看Java进程的具体状态, 包括进程ID，进程启动的路径及启动参数等等，与unix上的ps类似，只不过jps是用来显示java进程，可以把jps理解为ps的一个子集从应用程序启动到采样时发生 Full GC 的次数 FGCT 从应用程序启动到采样时 Full GC 所用的时间(秒) GCT T从应用程序启动到采样时用于垃圾回收的总时间(单位秒)，它的值等于YGC+FGC 5、
76520发布于 2020-08-19

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Kubernetes排障指南

POD异常排障

kubernetes 基础集群排障

Kubernetes 排障实战：用 Prometheus 提升集群可用性和排障效率

跨越前后端排障鸿沟，精准排障，让IT人员不“撕逼”

网站排障分析命令

排障还能这么玩？教你5个好用命令（上）

Redis延迟问题全面排障指南

腾讯云Window日常排障参考

排障不翻车 | 网络工程师必收藏的排障命令大全。附下载！

kubernetes中基础服务排障记

建设大模型训练排障平台：

Kublet PLEG不健康问题排障

玩转CVM之Cloud-Init排障

网络中出现故障该如何排障？具体排除流程有哪些？【网络排障连载01】

Flannel VXLAN 通信异常问题排障记录

访问数据库超时问题排障

网络无法通信排障指南——小白必看

Redis实战：延迟问题排障指南

Tomcat__05_JVM_排障工具

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐