搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏让技术和时代并行
Kubernetes排障指南
45 k8s-m1 kubelet[35667]: E1209 09:12:45.895575 35667 pod_workers.go:190] Error syncing pod 2eaa8ef9- 1822-11ea-a1d9-70fd45ac3f1f ("kube-flannel-ds-arm64-7cr2b_kube-system(2eaa8ef9-1822-11ea-a1d9-70fd45ac3f1f Back-off 5m0s restarting failed container=kube-flannel pod=kube-flannel-ds-arm64-7cr2b_kube-system(2eaa8ef9- 1822-11ea-a1d9-70fd45ac3f1f)" 4 查看网路插件kube-flannel的日志 [root@k8s-m1 src]# kubectl logs kube-flannel-ds-arm64 kuberuntime_sandbox.go:68] CreatePodSandbox for pod "kube-flannel-ds-arm64-hnsrv_kube-system(2eaafd62-1822-11ea-a1d9-
4.5K30发布于 2019-12-13
来自专栏腾讯云容器专家服务的专栏
POD异常排障
pod 处于以上情况，可通过kubectl describe pod -n<namepsaces> <podname> 查看对应event 展示信息，基于对应报错信息进行解决；
1.4K20发布于 2021-10-28
来自专栏云知识学习
kubernetes 基础集群排障
1930m memory: 1453632Ki pods: 110 System Info: Machine ID: f9d400c5e1e8c3a8209e990d887d4ac1 System UUID: A84ED043-ECAE-46CE-BB9D-7BCF16C5C59E Boot ID: 10676 manager.go:198] Machine: {NumCores:2 CpuFrequency:2394454 MemoryCapacity:1928921088 MachineID:f9d400c5e1e8c3a8209e990d887d4ac1 SystemUUID:A84ED043-ECAE-46CE-BB9D-7BCF16C5C59E BootID:f8d7 May 18 14:35:16 VM_0_10_centos kubelet[10676
3K120发布于 2018-05-18
来自专栏腾讯云可观测专栏
Kubernetes 排障实战：用 Prometheus 提升集群可用性和排障效率
得到上述指标后，便可灵活定义自己的业务和应用监控大盘：我们也可以使用 PromQL，灵活定义告警规则，例如我们可以定义一个关于订单支付延时的告警： K8s 排障实践接下来，我们将一起探讨常见的 Kubernetes 故障及其根因，并从具体案例出发，分析如何借助 Prometheus，对 K8s 进行全面排障。排障案例如果我们采访 K8s 运维工程师，问他们最常见、最头疼的 K8s 故障是啥，那么遥遥领先的必然是这俩： Pod 处于 pending 状态。 get pods NAME READY STATUS RESTARTS AGE test-1c6sbc7b9e-d5sch 满足您全链路、端到端的统一监控诉求，提高运维排障效率，为业务的健康和稳定保驾护航。
1.3K10编辑于 2025-02-11
来自专栏嘉为动态
跨越前后端排障鸿沟，精准排障，让IT人员不“撕逼”
我们以一些典型的场景为切入，来看看排障定位为什么会出现如此困境：01. 运维痛点——排障过程存在困境1）单点用户排障流程过去传统运维单点排障的工作实录：用户纷至沓来，客服电话被打爆，运维人员看看堆积如山的工单汗如雨下。只能一个个工单进行故障排查。 2）前端排障原理与流程当然，随着代码技术的不断演进，现在的程序员一般是不会一行一行的去排查代码的，不然动辄上万行的代码，如此去排障，运维人员、前后端人员早就“崩溃”了。为防止前后端的“撕逼”，我们需要从什么角度去建立前端监控体系，保证前后端的工作定位准确，精准排障呢？03. 对症下药——跨越障碍实现精准排障从用户端来看，任何一个角度出现问题，都会导致用户的体验不佳，导致流失。
82520编辑于 2023-03-29
来自专栏云+技术
网站排障分析命令
sort-n|uniq-c|sort-nr|head-20 8.统计网站流量（G) cat access.log|awk'{sum+=$10}END{printsum/1024/1024/1024}' 9. 统计404的连接 awk'($9~/404/)'access.log|awk'{print$9,$7}'|sort 网站日分析2(Squid篇） 2.按域统计流量 zcat squid_access.log.tar.gz
54930发布于 2019-04-09
来自专栏Windows技术交流
腾讯云Window日常排障参考
①安装微软Sysmon并启用 analytic and debug logging
59410编辑于 2025-03-21
来自专栏腾讯技术工程官方号的专栏
Redis延迟问题全面排障指南
这时我们还是需要一个全面的排障流程，不能无厘头地进行优化；全面的排障流程可以帮助我们找到真正的根因和性能瓶颈，以及实施正确高效的优化方案。这篇文章我们就从可能导致 Redis 延迟的方方面面开始，逐步深入排障深水区，以提供一个「全面」的 Redis 延迟问题排查思路。排障事大，但咱也不能冤枉了Redis；首先我们还是应该把其它因素都排除完了，再把焦点关注在业务服务到 Redis 这条链路上。导致 Redis Latency 的具体原因如果使用我们的快速清单并不能解决实际的延迟问题，我们就得深入 redis 性能排障的深水区，多方面逐步深究其中的具体原因了。总结 Redis 排障是一个循序渐进的复杂流程，涉及到 Redis 运行原理，设计架构以及操作系统，网络等等。
2.9K52编辑于 2023-04-29
来自专栏网络工程师笔记
排障不翻车 | 网络工程师必收藏的排障命令大全。附下载！
以下是30个常用的排障命令附带详细说明和一些用于华为网络设备的命令示例以帮助小白网络工程师更好地理解： 1. Ping测试： • 方法：使用ping命令测试目标设备的连通性。 <华为设备> display current-configuration | include port-group <华为设备> display firewall configuration 9.
76310编辑于 2023-11-27
来自专栏jeremy的技术点滴
kubernetes中基础服务排障记
工作中需要将原本部署在物理机或虚拟机上的一些基础服务搬到kubernetes中，在搬的过程中遇到了不少坑，这里记录一下。
2.7K20发布于 2019-06-13
建设大模型训练排障平台：
建设大模型训练排障平台是提升训练效率、降低运维成本、保障研发进度的关键基础设施。以下是构建这样一个平台的系统化方案：一、核心建设目标故障快速定位：分钟级定位硬件/软件/算法故障根源训练过程透明化：实时监控千卡级集群训练状态智能预警：提前发现潜在故障风险（如梯度异常）知识沉淀：构建可复用的排障知识库二
27210编辑于 2025-08-15
来自专栏颇忒脱的技术博客
Kublet PLEG不健康问题排障
现象：某个Node频繁出现“PLEG is not healthy: pleg was last seen active 3m46.752815514s ago; threshold is 3m0s”错误，频率在5-10分钟就会出现一次。
6.8K20发布于 2019-03-13
来自专栏johnnyxsu技术交流分享
玩转CVM之Cloud-Init排障
Windows Cloud-Init 排障思路确认Windows Server内部 cloudbase-init 服务是正常运行 1、登录虚拟机（如果忘记密码或者因为cloudbase-init 服务异常重置密码失败了
7.2K1842发布于 2019-07-16
来自专栏玉龙小栈
网络中出现故障该如何排障？具体排除流程有哪些？【网络排障连载01】
网络工程师经常接到各种求助电话，例如“电脑突然无法上网” 、“网页无法正常显示”、“游戏没法玩了”…… 报告故障：主动沟通确认在电话里询问用户上面的内容，并记录在排障报告中。逐一排查在逐一排查阶段同样需要平衡解决问题的迫切性与引入新故障的风险性之间的矛盾。所以，应该明确告知用户排查工作可能带来的风险，并在得到许可的情况下才能执行操作。有些情况下，通过逐一排查验证推断的过程涉及到网络变更，这时必须做好完善的应急预案和回退准备。解决故障如果通过逐一排查找到了故障的根本原因，并排除了故障，网络故障排除的流程就可以结束了。
2.2K20编辑于 2022-04-18
来自专栏颇忒脱的技术博客
Flannel VXLAN 通信异常问题排障记录
9）测试 UDP 传输在 rancher1 上启动 nc 监听 UDP 端口1nc -u -l -p 8888在 rancher3 上同样用 nc 传输数据，经过测试发现，1472 字节是单次传输的最大尺寸了
98820编辑于 2022-11-21
来自专栏JavaEdge
访问数据库超时问题排障
实战干货：编程严选网 1 排障过程系统从圣诞节那天晚上开始，每天晚上固定十点多到十一点多这个时段，大概瘫痪1h左右，过这时段系统自动恢复。系统瘫痪时的现象就是，网页和App都打不开，请求超时。
1.4K10编辑于 2025-12-02
网络无法通信排障指南——小白必看
网络无法通信通用排障流程 ✔ 基础连通性验证 1）ping 本机IP 2）ping 网关 3）ping 同网段设备 4）ping 其他网段 5）traceroute 跳点定位判定逻辑：能否 ping 问题典型现象水晶头歪斜速度跌为10M、随机断链光模块速率不匹配单向链路Up/Down反复抖动光功率过低(>-23dBm即危险) 帧错，丢包增大双绞线过长 > 100m 速率自动降级排障动作 switchport trunk allowed vlan add 10,20 5 秒全楼恢复广播风暴 / 环路导致整网卡死现象 ping随机丢包50%+ CPU升到80%以上交换机流量飙到线速核心排障
77610编辑于 2026-02-27
来自专栏北京马哥教育
Traceroute网络排障实用指南（1）
8ms 8ms7 ggr3.wswdc.ip.att.net (12.122.80.69) 8ms 8ms 8ms8 192.205.34.106 [AS 7018] 228ms 228ms 228ms9
3K40发布于 2018-05-02
来自专栏Kevinello的技术小站
Redis实战：延迟问题排障指南
Redis 执行 GET、SET、DEL 命令耗时也很久为什么我的 Redis 突然慢了一波，之后又恢复正常了为什么我的 Redis 稳定运行了很久，突然从某个时间点开始变慢了这时我们还是需要一个全面的排障流程，不能无厘头地进行优化；全面的排障流程可以帮助我们找到真正的根因和性能瓶颈，以及实施正确高效的优化方案这篇文章我们就从可能导致 Redis 延迟的方方面面开始，逐步深入排障深水区，以提供一个「全面」的当某进程又需要这些数据且OS发现还有空闲物理内存时，又会把SWAP分区中的数据交换回物理内存中，这个过程称为SWAP IN，详情可参考这篇文章redis 监控指标合理完善的监控指标无疑能大大助力我们的排障系统引起的延迟比在物理机上也要高得多结果就是，即使 Redis 在亚微秒的时间级别上能处理大多数命令，网络和系统相关的延迟仍然是不可避免的Redis实例所在的机器带宽不足 / docker网桥性能问题等排障事大启用并使用 Redis 的延迟监控功能，更好的监控 Redis 实例中的延迟事件和原因导致Redis Latency的具体原因如果使用我们的快速清单并不能解决实际的延迟问题，我们就得深入 redis 性能排障的深水区
1.6K122编辑于 2023-03-05
来自专栏Cyylog技术
Tomcat__05_JVM_排障工具
JVM 运维实用排障工具 1、jps 用来查看Java进程的具体状态, 包括进程ID，进程启动的路径及启动参数等等，与unix上的ps类似，只不过jps是用来显示java进程，可以把jps理解为ps的一个子集
76420发布于 2020-08-19

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Kubernetes排障指南

POD异常排障

kubernetes 基础集群排障

Kubernetes 排障实战：用 Prometheus 提升集群可用性和排障效率

跨越前后端排障鸿沟，精准排障，让IT人员不“撕逼”

网站排障分析命令

腾讯云Window日常排障参考

Redis延迟问题全面排障指南

排障不翻车 | 网络工程师必收藏的排障命令大全。附下载！

kubernetes中基础服务排障记

建设大模型训练排障平台：

Kublet PLEG不健康问题排障

玩转CVM之Cloud-Init排障

网络中出现故障该如何排障？具体排除流程有哪些？【网络排障连载01】

Flannel VXLAN 通信异常问题排障记录

访问数据库超时问题排障

网络无法通信排障指南——小白必看

Traceroute网络排障实用指南（1）

Redis实战：延迟问题排障指南

Tomcat__05_JVM_排障工具

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐