首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏玉龙小栈

    网络中出现故障该如何?具体排除流程有哪些?【网络连载01】

    常见的故障现象和分类如下: 结构化的网络故障排除流程 如果采取非结构化的网络故障排除流程,就只是凭直觉在这些步骤之间重复执行,虽然最终也可能找到解决故障的方法,但没有办法保证效率。 在复杂的网络环境中,有可能会由于非结构化的网络故障排除流程而导致新的故障,从而使网络故障的排除变得更加困难。所以咱们应该要按照结构化的网络故障排除流程来定位对位故障点,并加以改正。 网络工程师经常接到各种求助电话,例如“电脑突然无法上网” 、“网页无法正常显示”、“游戏没法玩了”…… 报告故障:主动沟通确认 在电话里询问用户上面的内容,并记录在报告中。 逐一查 在逐一查阶段同样需要平衡解决问题的迫切性与引入新故障的风险性之间的矛盾。所以,应该明确告知用户排查工作可能带来的风险,并在得到许可的情况下才能执行操作。 有些情况下,通过逐一查验证推断的过程涉及到网络变更,这时必须做好完善的应急预案和回退准备。 解决故障 如果通过逐一查找到了故障的根本原因,并排除了故障,网络故障排除的流程就可以结束了。

    2.1K20编辑于 2022-04-18
  • 来自专栏让技术和时代并行

    Kubernetes指南

    Running 0 2d14h 发现网络插件kube-flannel一直在尝试重启,有时能够正常,有时提示 CrashLoopBackOff有时OOMKilled 3 E1209 09:12:45.895575 35667 pod_workers.go:190] Error syncing pod 2eaa8ef9-1822-11ea-a1d9-70fd45ac3f1f ("kube-flannel-ds-arm64-7cr2b_kube-system(2eaa8ef9-1822-11ea-a1d9-70fd45ac3f1f)"), skipping: failed container=kube-flannel pod=kube-flannel-ds-arm64-7cr2b_kube-system(2eaa8ef9-1822-11ea-a1d9-70fd45ac3f1f securityContext: privileged: false capabilities: add: ["NET_ADMIN"] 3

    4.4K30发布于 2019-12-13
  • 来自专栏腾讯云容器专家服务的专栏

    POD异常

    pod 处于以上情况,可通过kubectl describe pod -n<namepsaces> <podname> 查看对应event 展示信息,基于对应报错信息进行解决;

    1.3K20发布于 2021-10-28
  • 来自专栏云知识学习

    kubernetes 基础集群

    READY STATUS RESTARTS AGE IP NODE kube-dns-3162619857-mmspm 3/ 3 Running 0 40m 172.16.0.2 10.0.0.10 l7-lb-controller-2881622555-0v0p4 1/1 nginx:latest Image ID: docker-pullable://nginx@sha256:0fb320e2a1b1620b4905facb3447e3d84ad36da0b2c8aa8fe3a5a81d1187b884 memory: 1453632Ki pods: 110 System Info: Machine ID: f9d400c5e1e8c3a8209e990d887d4ac1 Filesystem partitions: map[/dev/vda1:{mountpoint:/var/lib/docker/overlay2 major:253 minor:1 fsType:ext3

    2.9K120发布于 2018-05-18
  • 来自专栏腾讯云可观测专栏

    Kubernetes 实战:用 Prometheus 提升集群可用性和效率

    得到上述指标后,便可灵活定义自己的业务和应用监控大盘: 我们也可以使用 PromQL,灵活定义告警规则,例如我们可以定义一个关于订单支付延时的告警: K8s 实践 接下来,我们将一起探讨常见的 Kubernetes 故障及其根因,并从具体案例出发,分析如何借助 Prometheus,对 K8s 进行全面案例 如果我们采访 K8s 运维工程师,问他们最常见、最头疼的 K8s 故障是啥,那么遥遥领先的必然是这俩: Pod 处于 pending 状态。 满足您全链路、端到端的统一监控诉求,提高运维效率,为业务的健康和稳定保驾护航。

    99710编辑于 2025-02-11
  • 来自专栏嘉为动态

    跨越前后端鸿沟,精准,让IT人员不“撕逼”

    我们以一些典型的场景为切入,来看看定位为什么会出现如此困境:01. 运维痛点——过程存在困境1)单点用户流程过去传统运维单点的工作实录:用户纷至沓来,客服电话被打爆,运维人员看看堆积如山的工单汗如雨下。只能一个个工单进行故障排查。 2)前端原理与流程当然,随着代码技术的不断演进,现在的程序员一般是不会一行一行的去排查代码的,不然动辄上万行的代码,如此去,运维人员、前后端人员早就“崩溃”了。 对症下药——跨越障碍实现精准从用户端来看,任何一个角度出现问题,都会导致用户的体验不佳,导致流失。 前后端监控工具的相互联动,能够让运维人员提供加强故障感知能力,保证业务连续稳定,同时也便于研发人员进行异常根因分析,精准定位问题,从而跨越前后端鸿沟,实现全方位流程的效率提升。

    75920编辑于 2023-03-29
  • 来自专栏云+技术

    网站分析命令

    head-n20 netstat -ant|awk'/:80/{split($5,ip,":");++A[ip[1]]}END{for(iinA)printA[i],i}'|sort-rn|head-n20 3. "$3". printcounts[url],url}' 2.访问次数最多的文件或页面,取前20 cat access.log|awk'{print$11}'|sort|uniq-c|sort-nr|head-20 3.

    48530发布于 2019-04-09
  • 来自专栏腾讯技术工程官方号的专栏

    Redis延迟问题全面指南

    这时我们还是需要一个全面的流程,不能无厘头地进行优化;全面的流程可以帮助我们找到真正的根因和性能瓶颈,以及实施正确高效的优化方案。 这篇文章我们就从可能导致 Redis 延迟的方方面面开始,逐步深入深水区,以提供一个「全面」的 Redis 延迟问题排查思路。 事大,但咱也不能冤枉了Redis;首先我们还是应该把其它因素都排除完了,再把焦点关注在业务服务到 Redis 这条链路上。 导致 Redis Latency 的具体原因 如果使用我们的快速清单并不能解决实际的延迟问题,我们就得深入 redis 性能的深水区,多方面逐步深究其中的具体原因了。 总结 Redis 是一个循序渐进的复杂流程,涉及到 Redis 运行原理,设计架构以及操作系统,网络等等。

    2.7K52编辑于 2023-04-29
  • 来自专栏Windows技术交流

    腾讯云Window日常参考

    /2333826举例2:通过Process Explorer排查内核中的异常驱动并最终锁定元凶https://cloud.tencent.com/developer/article/1957099举例3

    44310编辑于 2025-03-21
  • 来自专栏jeremy的技术点滴

    kubernetes中基础服务

    经验教训,在测试前可用iperf3先测试下node节点之间,pod节点之间的网络状况,方法如下: # 在某台node节点上启动iperf3服务端 $ iperf3 --server # 在另一台node 节点上启动iperf3客户端 $ iperf3 --client ${node_ip} --length 150 --parallel 100 -t 60 # 在kuberntes中部署iperf3 的服务端与客户端 $ kubectl apply -f https://raw.githubusercontent.com/Pharb/kubernetes-iperf3/master/iperf3.yaml # 查看iperf3相关pod的podIP $ kubectl get pod -o wide # 在某个iperf3 client的pod中执行iperf3命令,以测试其到iperf3 server pod的网络状况 $ kubectl exec -ti iperf3-clients-5b5ll -- iperf3 --client ${iperf3_server_pod_ip} --length

    2.6K20发布于 2019-06-13
  • 来自专栏网络工程师笔记

    不翻车 | 网络工程师必收藏的命令大全。附下载!

    以下是30个常用的命令 附带详细说明和一些用于华为网络设备的命令示例 以帮助小白网络工程师更好地理解: 1. Ping测试: • 方法:使用ping命令测试目标设备的连通性。 • 命令:在命令行界面中输入以下命令: tracert 目标设备的IP地址或域名 • 示例: <华为设备> tracert 10.0.0.1 3.

    67010编辑于 2023-11-27
  • 建设大模型训练平台:

    建设大模型训练平台是提升训练效率、降低运维成本、保障研发进度的关键基础设施。 以下是构建这样一个平台的系统化方案:一、核心建设目标故障快速定位:分钟级定位硬件/软件/算法故障根源训练过程透明化:实时监控千卡级集群训练状态智能预警:提前发现潜在故障风险(如梯度异常)知识沉淀:构建可复用的知识库二 日志实时流采集算法指标训练脚本标准输出(Loss/梯度)批次级硬件健康状态IPMI/BMC+RAID控制器日志分钟级关键技术:eBPF实现内核级零拷贝数据采集,日志采集采用Sidecar容器避免I/O竞争3.

    22810编辑于 2025-08-15
  • 来自专栏颇忒脱的技术博客

    Kublet PLEG不健康问题

    现象:某个Node频繁出现“PLEG is not healthy: pleg was last seen active 3m46.752815514s ago; threshold is 3m0s”错误 10311 kubelet.go:1775] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m46.752815514s ago; threshold is 3m0s] ...

    6.7K20发布于 2019-03-13
  • 来自专栏johnnyxsu技术交流分享

    玩转CVM之Cloud-Init

    与 python3的兼容性上。 Windows Cloud-Init 思路 确认Windows Server内部 cloudbase-init 服务是正常运行 1、登录虚拟机(如果忘记密码或者因为cloudbase-init 服务异常重置密码失败了 image.png 3、手工 启动 cloudbase-init 服务看看是否有相关报错,如果有报错需要解决(特别关注是否安装相关安全软件拦截cloudbase-init执行的相关操作)。 3)如果有特殊需求一定要禁用CD-ROM,需要把cloudbase-init 这个服务一起禁用掉。 问题3:用户安装了安全软件拦截了 cloudbase-init 服务重置密码的操作,从而使得重置密码流程返回成功但是是实际没重置上。 背景原因: 无。

    7K1842发布于 2019-07-16
  • 来自专栏JavaEdge

    访问数据库超时问题

    实战干货:编程严选网 1 过程 系统从圣诞节那天晚上开始,每天晚上固定十点多到十一点多这个时段,大概瘫痪1h左右,过这时段系统自动恢复。系统瘫痪时的现象就是,网页和App都打不开,请求超时。

    1.3K10编辑于 2025-12-02
  • 来自专栏颇忒脱的技术博客

    Flannel VXLAN 通信异常问题记录

    rancher 的 3 台服务器 rancher1(172.16.1.194)、rancher2(172.16.1.195)、rancher3(172.22.1.199)注意到 rancher3 和 rancher1 正常,但是 rancher3->rancher2 不正常。 挂的时候,traceroute rancher2->rancher3 正常,但是 rancher3->rancher2 不正常。 恢复的时候,和 ping 一样,rancher 1/2 看到 rancher3 healthy,但是 rancher3 看到的问题依旧。 在 rancher1 上启动 iperf3 服务端:1iperf3 -s在 rancher3 上启动 iperf3 压测(流量 22100Kbit/sec)1iperf3 -c rancher1 -u

    94820编辑于 2022-11-21
  • 网络无法通信指南——小白必看

    网络无法通信通用流程 ✔ 基础连通性验证 1)ping 本机IP 2)ping 网关 3)ping 同网段设备 4)ping 其他网段 5)traceroute 跳点定位 判定逻辑: 能否 ping 问题 典型现象 水晶头歪斜 速度跌为10M、随机断链 光模块速率不匹配 单向链路Up/Down反复抖动 光功率过低(>-23dBm即危险) 帧错,丢包增大 双绞线过长 > 100m 速率自动降级 动作 UP/DOWN,视频会议延迟爆炸 | | 排查 | show int g0/1 → CRC error持续上升 光功率 -24dBm(低于阈值) | 解决 | 更换光纤跳线 ➤ 延迟从1200ms降为3ms switchport trunk allowed vlan add 10,20 5 秒全楼恢复 广播风暴 / 环路导致整网卡死 现象 ping随机丢包50%+ CPU升到80%以上 交换机流量飙到线速 核心 events 解决措施: 手段 效果 开启RSTP/MSTP 快速收敛防环路 接入端口启用 PortFast + BPDU Guard 防止误环路 Storm-control limit 广播 避免雪崩 3️⃣

    43010编辑于 2026-02-27
  • 来自专栏北京马哥教育

    Traceroute网络实用指南(1)

    如etworkname.customer.alter.net 有时能够看到反解域名的明显变化: 4 te1-2-10g.ar3.DCA3.gblx.net (67.17.108.146)5 sl-st21 )5 cogent-1.ar5.DCA3.gblx.net (64.212.107.90) 当然有时DNS的信息根本没有用: 2 po2-20G.ar4.DCA3.gblx.net (67.16.133.82 64.212.107.89 = te2-3-10GE.ar5.DCA3.gblx.net ar5.DCA3.gblx.net有多个DNS域名解析,通过以上分析,就算第5跳的DNS中没有cogent字眼提示也能判断第 因此通过分析对端的接口信息,就能够知道路由器所属自治系统(若64.212.107.89的域名是cogent-0.ar5.DCA3.gblx.net,那么ar5.DCA3路由器将属于两个自治系统)。 3 xe-3-0-0.cr1.nyc3.us.nlayer.net (69.22.142.74) 6.570ms4 xe-0-0-0.cr1.lhr1.uk.nlayer.net (69.22.142.10

    2.9K40发布于 2018-05-02
  • 来自专栏Kevinello的技术小站

    Redis实战:延迟问题指南

    Redis 执行 GET、SET、DEL 命令耗时也很久为什么我的 Redis 突然慢了一波,之后又恢复正常了为什么我的 Redis 稳定运行了很久,突然从某个时间点开始变慢了这时我们还是需要一个全面的流程 ,不能无厘头地进行优化;全面的流程可以帮助我们找到真正的根因和性能瓶颈,以及实施正确高效的优化方案这篇文章我们就从可能导致 Redis 延迟的方方面面开始,逐步深入深水区,以提供一个「全面」的 当某进程又需要这些数据且OS发现还有空闲物理内存时,又会把SWAP分区中的数据交换回物理内存中,这个过程称为SWAP IN,详情可参考这篇文章redis 监控指标合理完善的监控指标无疑能大大助力我们的 系统引起的延迟比在物理机上也要高得多 结果就是,即使 Redis 在亚微秒的时间级别上能处理大多数命令,网络和系统相关的延迟仍然是不可避免的Redis实例所在的机器带宽不足 / docker网桥性能问题等事大 6.0 以上的版本,就可以通过以上配置,来进一步提高 Redis 性能;但一般来说,Redis 的性能已经足够优秀,除非对 Redis 的性能有更加严苛的要求,否则不建议绑定 CPU总结Redis 是一个循序渐进的复杂流程

    1.5K122编辑于 2023-03-05
  • 来自专栏Cyylog技术

    Tomcat__05_JVM_工具

    JVM 运维实用工具 1、jps 用来查看Java进程的具体状态, 包括进程ID,进程启动的路径及启动参数等等,与unix上的ps类似,只不过jps是用来显示java进程,可以把jps理解为ps的一个子集 pid’没有响应的时候强制打印栈信息 Example // 打印JVM 的堆栈信息,以供问题排查 [root@mouse03 ~]# jstack -F 38360 > /tmp/jstack.log 3

    69920发布于 2020-08-19
领券