首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏玉龙小栈

    网络中出现故障该如何?具体排除流程有哪些?【网络连载01】

    企业数通网络用到多种设备类型,设备之间使用多种物理链路连接,同时为了准确的完成数据包的转发,网络设备运行了多种网络协议。 网络设备,线缆、以及网络协议都有可能产生网络故障,如何快速完成故障处理是一个高级网络工程师的基本素养。 什么是网络故障 网络故障是指由于某种原因而使网络丧失规定功能并影响业务的现象。 网络工程师经常接到各种求助电话,例如“电脑突然无法上网” 、“网页无法正常显示”、“游戏没法玩了”…… 报告故障:主动沟通确认 在电话里询问用户上面的内容,并记录在报告中。 逐一查 在逐一查阶段同样需要平衡解决问题的迫切性与引入新故障的风险性之间的矛盾。所以,应该明确告知用户排查工作可能带来的风险,并在得到许可的情况下才能执行操作。 有些情况下,通过逐一查验证推断的过程涉及到网络变更,这时必须做好完善的应急预案和回退准备。 解决故障 如果通过逐一查找到了故障的根本原因,并排除了故障,网络故障排除的流程就可以结束了。

    2.1K20编辑于 2022-04-18
  • 来自专栏北京马哥教育

    Traceroute网络实用指南(1)

    根据百度百科定义,Traceroute是一种电脑网络工具,它可显示数据包在IP网络经过的路由器的IP地址。 Traceroute有三大特点: 跨平台。 现代商业网络运行情况良好。 大部分ISP NOC甚至是专业的网络工程师也难以解释一个复杂的路由;有非常多的误判报告充斥着世界各地NOC;高误判率导致几乎无法从这些报告中判断出真正最根本的网络问题。 帮助你理解网络互联的节点。 四、网络延时 三种主要网络延时: 串行延时。该延时是路由器或交换机发送数据包的时间,串行延时=包大小(bits)/传输速率(bps); 排队延时。

    2.9K40发布于 2018-05-02
  • 网络无法通信指南——小白必看

    网络无法通信通用流程 ✔ 基础连通性验证 1)ping 本机IP 2)ping 网关 3)ping 同网段设备 4)ping 其他网段 5)traceroute 跳点定位 判定逻辑: 能否 ping 故障层级 127.0.0.1 不通 网络协议栈异常(本机问题) 本机IP 不通 NIC驱动/系统防火墙问题 网关不通 VLAN/网关配置/线速/MAC异常 外网不通但网关通 路由/ACL/NAT出口故障 问题 典型现象 水晶头歪斜 速度跌为10M、随机断链 光模块速率不匹配 单向链路Up/Down反复抖动 光功率过低(>-23dBm即危险) 帧错,丢包增大 双绞线过长 > 100m 速率自动降级 动作 switchport trunk allowed vlan add 10,20 5 秒全楼恢复 广播风暴 / 环路导致整网卡死 现象 ping随机丢包50%+ CPU升到80%以上 交换机流量飙到线速 核心 解决措施: 手段 效果 开启RSTP/MSTP 快速收敛防环路 接入端口启用 PortFast + BPDU Guard 防止误环路 Storm-control limit 广播 避免雪崩 3️⃣ 网络层故障

    34010编辑于 2026-02-27
  • 来自专栏网络工程师笔记

    不翻车 | 网络工程师必收藏的命令大全。附下载!

    以下是30个常用的命令 附带详细说明和一些用于华为网络设备的命令示例 以帮助小白网络工程师更好地理解: 1. Ping测试: • 方法:使用ping命令测试目标设备的连通性。 抓包分析: • 方法:使用Wireshark等抓包工具捕获和分析网络数据包。 • 命令:下载并安装Wireshark,然后运行应用程序并选择网络接口开始抓包。 性能监控: • 方法:使用监控工具(如eSight)监视网络设备和服务的性能。 • 无特定命令,使用监控工具来监视性能。 10. MTU大小检查: • 方法:检查网络设备的最大传输单元(MTU)设置,确保它们匹配。 • 示例:查看接口MTU配置。 MTU Path Discovery: • 方法:使用MTU Path Discovery检查网络路径的最大传输单元。 • 示例:启用MTU Path Discovery。

    66110编辑于 2023-11-27
  • 来自专栏让技术和时代并行

    Kubernetes指南

    0 2d14h kube-scheduler-k8s-master 1/1 Running 0 2d14h 发现网络插件 NET_ADMIN"] 3)ImagePullBackOff 异常解决 一般出现这个异常大多以下两个原因造成的: 镜像名称无效-例如,你拼错了名称,或者 image 不存在 你为 image 指定了不存在的标签 4)网络插件 kube-flannel无法启动问题 一般情况下是因为网络插件flannel下载问题,默认的网络插件下载地址是quay.io/coreos/flannel,但是这个地址国内网络无法直接访问到,这个时候我们需要从

    4.4K30发布于 2019-12-13
  • 来自专栏腾讯云容器专家服务的专栏

    POD异常

    此阶段包括等待 Pod 被调度的时间和通过网络下载镜像的时间, Waiting (等待) Pod 处于 Waiting 状态的容器仍在运行它完成启动所需要的操作。

    1.3K20发布于 2021-10-28
  • 来自专栏TKE操作指北

    自动化网络工具使用说明

    针对网络丢包监测,以及找运营商报,步骤如下: 1. 用户提供 本地客户端 到服务器 双向 ping 测试截图,双向MTR 测试截图,以及本地客户端公网出口IP 截图。 2. 提交这些截图通过工单的形式联系腾讯云侧帮忙向运营商报,或者如果客户有本地运营商联系途径,可以直接拿这些测试截图直接找运营商报(效率比较快一点) 因为大多数用户不太清楚MTR 工具的使用,所以为了方便用户操作 ,腾讯云侧专门自研了自动化网络工具,用户只要下载自动化工具,在本地 或者 服务器执行start 操作,该工具就会自动执行 Ping 检测 MTR 检测 TRACERT 检测,本地出口IP 检测,并自动把这些信息上传到腾讯云后台 提交工单说明问题,如果要检测网络丢包情况,腾讯云工程师会提供下面四个链接,类似下面这种: 正向工具: windows:http://49.234.16.249/auto/check? Linux系统: Linux 系统采用运行脚本的方式执行网络检测,在Linux 服务器内直接使用工具链接下载脚本压缩文件,然后解压脚本,添加X 权限,运行脚本即可,具体操作如下图:

    1.7K00发布于 2019-07-27
  • 网络工程师必会基础

    一、网络工程师基础思路1. 核心原则(3 大思维)原则 说明 示例 由外到内从最外层(用户端)到最核心 常见方法方法 思路 场景举例 分层法按 OSI 模型逐层排查 链路层看 MAC,网络层看 IP,传输层看端口 标准流程(6 步)确认故障现象收集用户反馈、错误信息、日志定位故障范围单用户 / 多用户单 VLAN / 多 VLAN检查物理层端口状态(up/down)、网线、光纤、模块检查链路层VLAN 配置、 Trunk、MAC 地址表检查网络层IP 地址、网关、路由表、ACL验证与恢复解决问题后验证网络恢复,记录原因 二、常用命令速查表1.

    45910编辑于 2025-08-26
  • 来自专栏云知识学习

    kubernetes 基础集群

    在排错过程中,kubectl 是最重要的工具,通常也是定位错误的起点。这里也列出一些常用的命令,在后续的各种排错过程中都会经常用到。

    2.9K120发布于 2018-05-18
  • 来自专栏腾讯云可观测专栏

    Kubernetes 实战:用 Prometheus 提升集群可用性和效率

    得到上述指标后,便可灵活定义自己的业务和应用监控大盘: 我们也可以使用 PromQL,灵活定义告警规则,例如我们可以定义一个关于订单支付延时的告警: K8s 实践 接下来,我们将一起探讨常见的 Kubernetes 故障及其根因,并从具体案例出发,分析如何借助 Prometheus,对 K8s 进行全面。 常见原因: 网络插件故障: 使用的网络插件(如 Calico、Flannel)出现问题,导致网络不通。 案例 如果我们采访 K8s 运维工程师,问他们最常见、最头疼的 K8s 故障是啥,那么遥遥领先的必然是这俩: Pod 处于 pending 状态。 满足您全链路、端到端的统一监控诉求,提高运维效率,为业务的健康和稳定保驾护航。

    94610编辑于 2025-02-11
  • 来自专栏嘉为动态

    跨越前后端鸿沟,精准,让IT人员不“撕逼”

    我们以一些典型的场景为切入,来看看定位为什么会出现如此困境:01. 运维痛点——过程存在困境1)单点用户流程过去传统运维单点的工作实录:用户纷至沓来,客服电话被打爆,运维人员看看堆积如山的工单汗如雨下。只能一个个工单进行故障排查。 2)前端原理与流程当然,随着代码技术的不断演进,现在的程序员一般是不会一行一行的去排查代码的,不然动辄上万行的代码,如此去,运维人员、前后端人员早就“崩溃”了。 为防止前后端的“撕逼”,我们需要从什么角度去建立前端监控体系,保证前后端的工作定位准确,精准呢?03. 对症下药——跨越障碍实现精准从用户端来看,任何一个角度出现问题,都会导致用户的体验不佳,导致流失。

    75320编辑于 2023-03-29
  • 来自专栏每个用户仅限创建一个专栏

    记录一次 Android TV 网络访问

    之前用着一直没什么问题,最近总是出现一个系统提示 Wifi 已连接但无法访问互联网,实际上基础网络访问是没问题的,像腾讯视频之类的,但 youtube 就无法打开,奇怪的是同一路由下不管是手机还是电脑都能正常播放

    2.1K20编辑于 2022-08-16
  • 来自专栏云+技术

    网站分析命令

    系统连接状态篇: 1.查看TCP连接状态 netstat -nat|awk'{print$6}'|sort|uniq-c|sort-rnnetstat-n|awk'/^tcp/{print$NF}'|sort|uniq-c|sort-rnnetstat-ant|awk'{print$NF}'|grep-v'[a-z]'|sort|uniq-c 2.查找请求数请20个IP(常用于查找攻来源): netstat -anlp|grep80|greptcp|awk'{print$5}'|awk-F:'{print$1}'|sort|uniq-c|sort-nr|head-n20 netstat -ant|awk'/:80/{split($5,ip,":");++A[ip[1]]}END{for(iinA)printA[i],i}'|sort-rn|head-n20 3.用tcpdump嗅探80端口的访问看看谁最高 tcpdump -ieth0-tnndstport80-c1000|awk-F"."'{print$1"."$2"."$3"."$4}'|sort|uniq-c|sort-nr|head-20 6.根据端口列进程 netstat -ntlp|grep 80|awk'{print$7}'|cut-d/-f1 网站日志分析篇1(Apache): 1.获得访问前10位的ip地址 cat access.log|awk'{print$1}'|sort|uniq-c|sort-nr|head-10 cat access.log|awk'{counts[$(11)]+=1};END{for(urlincounts)printcounts[url],url}' 2.访问次数最多的文件或页面,取前20 cat access.log|awk'{print$11}'|sort|uniq-c|sort-nr|head-20 3.列出传输最大的几个exe文件(分析下载站的时候常用) cat access.log|awk'($7~/\.exe/){print$10""$1""$4""$7}'|sort-nr|head-20 4.列出输出大于200000byte(约200kb)的exe文件以及对应文件发生次数 cat access.log|awk'($10>200000&&$7~/\.exe/){print$7}'|sort-n|uniq-c|sort-nr|head-100 7.列出传输时间超过30秒的文件 cat access.log|awk'($NF>30){print$7}'|sort-n|uniq-c|sort-nr|head-20 8.统计网站流量(G) cat access.log|awk'{sum+=$10}END{printsum/1024/1024/1024}' 9.统计404的连接 awk'($9~/404/)'access.log|awk'{print$9,$7}'|sort 网站日分析2(Squid篇) 2.按域统计流量 zcat squid_access.log.tar.gz|awk'{print$10,$7}'|awk'BEGIN{FS="[/]"}{trfc[$4]+=$1}END{for(domainintrfc){printf"%s\t%d\n",domain,trfc[domain]}}' 数据库篇 1.查看数据库执行的sql /usr/sbin/tcpdump-ieth0-s0-l-w-dstport3306|strings|egrep-i'SELECT|UPDATE|DELETE|INSERT|SET|COMMIT|ROLLBACK|CREATE|DROP|ALTER|CALL'

    47630发布于 2019-04-09
  • 来自专栏玉龙小栈

    常见网络故障排除举例-路由故障【网络连载04】

    在上一篇文章的故障处理中【网络故障排除的举例【网络连载03】】已保证PC1和SW3之间无故障,Server6和SW5之间无故障。 静态路由 OSPF BGP IS-IS 流量控制 服务器故障(已完成) 路由检查: 数据包转发时需要进行逐跳转发,沿途所有的路由器都要有到达目的地的路由,首先检测PC1发送数据包给Server6经过的所有网络设备是否存在到达 邻居关系建立失败的原因有: Router ID冲突 区域ID不匹配 网络掩码不匹配 MTU不一致 MA网络中,所有设备的DR优先级设置为0 认证密码不匹配 接口被设置为silent-interface 在广播网中是开启源检查的,但是可以关闭) IS-IS协议邻接关系建立正常,但是R3却无法获取10.0.2.2/32的路由信息,可能有以下原因: 接口没有开启IS-IS协议 Metric值的类型不一致 设备做了路由策略 网络类型不一致

    1.2K22编辑于 2022-06-15
  • 来自专栏网络技术联盟站

    网络:USG防火墙no-NAT策略不生效

    拓扑如下,管理员将防火墙配置为对内部服务器 1 和服务器 2 进行 NAT,以便为 Internet 用户 (R1) 提供服务。并且服务器 1 被允许访问互联网,但服务器 2 不被允许。配置完成后,admin发现server 1和server 2都可以上网。

    1.4K30编辑于 2023-03-13
  • 来自专栏Windows技术交流

    腾讯云Window日常参考

    ①安装微软Sysmon并启用 analytic and debug logging

    41510编辑于 2025-03-21
  • 来自专栏腾讯技术工程官方号的专栏

    Redis延迟问题全面指南

    这时我们还是需要一个全面的流程,不能无厘头地进行优化;全面的流程可以帮助我们找到真正的根因和性能瓶颈,以及实施正确高效的优化方案。 这篇文章我们就从可能导致 Redis 延迟的方方面面开始,逐步深入深水区,以提供一个「全面」的 Redis 延迟问题排查思路。 事大,但咱也不能冤枉了Redis;首先我们还是应该把其它因素都排除完了,再把焦点关注在业务服务到 Redis 这条链路上。 导致 Redis Latency 的具体原因 如果使用我们的快速清单并不能解决实际的延迟问题,我们就得深入 redis 性能的深水区,多方面逐步深究其中的具体原因了。 总结 Redis 是一个循序渐进的复杂流程,涉及到 Redis 运行原理,设计架构以及操作系统,网络等等。

    2.7K52编辑于 2023-04-29
  • 来自专栏网络技术联盟站

    网络工程师都知道的几款网络工具

    2020年即将结束,网络工程师或管理员也将迎来崭新的年度。那么,奋战在网络维护一线的小伙伴们应该掌握什么样的软件才能真正搞好网络维护,让网络正常运营呢? 网络抓包 从网络抓包就可以分析出很多东西,其中一项就是用来做排错。 为对运营商网络中不同类型的业务流进行准确的流量和流向分析与计量,首先需要对网络中传输的各种类型数据包进行区分。 由于IP网络的非面向连接特性,网络中不同类型业务的通信可能是任意一台终端设备向另一台终端设备发送的一组IP数据包,这组数据包实际上就构成了运营商网络中某种业务的一个Flow。 ,以识别并快速解决网络问题。

    85720编辑于 2023-03-13
  • 来自专栏jeremy的技术点滴

    kubernetes中基础服务

    异常网络引起的问题 之前使用redis-operator在kubernetes中部署了一套Redis集群,可测试的同事使用redis-benchmark随便一压测,这个集群就会出问题。 经过艰苦的问题查找过程,终于发现了问题,原来是两个虚拟机之间的网络存在异常。 经验教训,在测试前可用iperf3先测试下node节点之间,pod节点之间的网络状况,方法如下: # 在某台node节点上启动iperf3服务端 $ iperf3 --server # 在另一台node iperf3相关pod的podIP $ kubectl get pod -o wide # 在某个iperf3 client的pod中执行iperf3命令,以测试其到iperf3 server pod的网络状况

    2.6K20发布于 2019-06-13
  • 建设大模型训练平台:

    建设大模型训练平台是提升训练效率、降低运维成本、保障研发进度的关键基础设施。 以下是构建这样一个平台的系统化方案:一、核心建设目标故障快速定位:分钟级定位硬件/软件/算法故障根源训练过程透明化:实时监控千卡级集群训练状态智能预警:提前发现潜在故障风险(如梯度异常)知识沉淀:构建可复用的知识库二 全域数据采集层数据类型采集方式采样频率GPU指标(显存/利用率)DCGM/NVML1秒级网络流量RDMA计数器+交换机SNMP5秒级分布式框架日志PyTorch/TF的NCCL日志实时流采集算法指标训练脚本标准输出

    22210编辑于 2025-08-15
领券