首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏院长运维开发

    K8S内核故障

    k8s已经无法管理node节点 ,node节点pod节点全挂了 ?

    2.2K20发布于 2020-06-16
  • 来自专栏大数据成长之路

    HDFS中namenode故障恢复(8)

    value>file:///export/servers/Hadoop-2.6.0-cdh5.14.0/HadoopDatas/dfs/nn/snn/edits</value> </property> 故障恢复步骤 start-all.sh 4.浏览器页面正常访问 http://xxxx:50070/explorer.html#/【xxxx为namenode所在节点的ip】 发现一切正常,说明故障恢复成功

    63610发布于 2021-01-22
  • 来自专栏Tensorbytes

    k8s故障问题收集帖

    ] Error adding local-path-storage_local-path-provisioner-ccbdd96dc-cbthj/ 0d2b1cd6de25ac114e2075f70f8ac25ef72b299048e728038086f3e7324f400a failed: rpc error: code = Unknown desc = failed to set up sandbox container “0d2b1cd6de25ac114e2075f70f8ac25ef72b299048e728038086f3e7324f400a

    2.4K20发布于 2020-02-11
  • 来自专栏希里安

    k8s故障排查常用方法

    -- SRETALK 9月14日 k8s更新了1.28.2版本,这更新速度杠杠的,你们还在用什么版本,停留在1.18-1.20的小伙伴举个手 --k8s k8s故障排查常用方式 在Kubernetes中排查故障是一个常见但有时复杂的任务 以下是常用的方式和方法,可以帮排查Kubernetes中的故障: 查看Pod状态和事件: 使用 kubectl get pods 命令来获取Pod的状态。 升级和维护: 确保Kubernetes集群和应用程序组件处于最新版本,因为某些故障可能已在较新的版本中修复。 在排查故障时,重要的是有系统地方法来分析问题,从Pod级别到节点级别,甚至到集群级别。同时,建议使用自动化工具来监视和报警,在故障发生时快速采取措施,以减少影响。

    71040编辑于 2023-10-30
  • 来自专栏IT运维技术圈

    经典故障分析报告之-内核参数导致k8s节点故障

    运行环境信息:Kubernetes + docker,应用程序:Java 问题描述 1、首先从 Kubernetes 事件中心告警信息如下,该告警集群常规告警事件(其实从下面这些常规告警信息是无法判断是什么故障问题 14:22:06 PROD-BE-K8S-WN8 kubelet[3124]: runtime.startTemplateThread() Dec 22 14:22:06 PROD-BE-K8S-WN8 (*mTreap).end+78> 0000000000000000 二、故障分析 根据以上的故障问题初步分析,第一反应是 ulimi -u 值太小,已经被 hit(触及到,突破该参数的上限),于是查看各用户的 * soft nproc 65536 root soft nproc unlimited 查看节点运行的进程: 从监控信息可以看到在故障最高使用 分析过程 1、从以上监控信息分析,故障时间区间,系统运行的线程略高 31616,但是该值却没有超过当前用户的 ulimit -u 的值,初步排除该线索。

    1.5K40编辑于 2023-02-02
  • 来自专栏运维开发故事

    k8s故障检测与自愈(一)

    组件故障 组件故障可以认为是节点故障的子类,只是故障来源是K8S基础组件的一部分。 DNS故障:6个DNS Pod中的2个出现无法解析外部DNS名称的情况。后果是大量线上业务因域名解析。 CNI故障:少数几个节点的容器网络和外部断开,节点访问自身的Pod IP没有问题,但是其它节点无法访问故障节点的Pod IP。 可以参考: 使用KubeNurse进行集群网络监控 乔克,公众号:运维开发故事使用KubeNurse进行集群网络监控 节点故障 硬件错误: CPU/Memory/磁盘故障 kernel问题: kernel 在裸金属K8S集群中,由于缺乏基础设施的支撑,自动扩充节点可能无法实现,只能通过更加精细的自动化运维,治愈节点的异常状态。 ? 尝试重启容器运行时 告警,要求运维人员介入 部署NPD实践你需要有一个k8s集群,必须有1个以上的worker节点。

    3.7K20发布于 2021-04-26
  • 来自专栏云计算与大数据

    k8s|一次故障排查

    阿里云有自己的Kubernetes容器集群产品。随着Kubernetes集群出货量的剧增,线上用户零星的发现,集群会非常低概率地出现节点NotReady情况。据我们观察,这个问题差不多每个月,就会有一两个客户遇到。在节点NotReady之后,集群Master没有办法对这个节点做任何控制,比如下发新的Pod,再比如抓取节点上正在运行Pod的实时信息。

    3.2K30发布于 2019-06-11
  • 来自专栏互联网-小阿宇

    公司测试环境k8s节点故障解决

    测试环境 ip地址 信息 192.168.1.215 k8s主节点 、etcd 192.168.1.216 k8s从节点、etcd 192.168.1.139 kvm 报错: 从215服务器上面可以看到使用 k8s的命令就是没反应 要不就是回复的是时间超时! running 73 k8s_node01 running - donghang shut off virsh reboot k8s_node01 ##进行重启 virsh reboot k8s-node02 等待几分钟重启一下 然后我们分别登录到215和216服务器进行查看一下 然后 get cs 可以发现可以使用命令,并且集群正常 治标不治本 根本原因还要去寻找,不然可能还会导致连续的宕机 治本 可能是节点的资源不够磁盘使用量过大导致的 然后再进行更新发布项目的时候会直接使k8s

    72540编辑于 2022-11-21
  • 来自专栏希里安

    小年快乐,聊聊k8s常见故障

    k8s常见故障 Kubernetes(K8s)是一个开源的容器编排平台,用于自动化容器的部署、扩展和管理。尽管它是一个健壮的系统,但在使用中不可避免的会遇到一些故障。 控制平面故障: API服务器宕机或响应缓慢。 etcd集群问题,如数据不一致、性能问题或全面故障。 调度器、控制器管理器的故障。 节点级故障: 节点宕机。 kubelet故障。 容器运行时故障。 只要冷静沉着应对,总结一套属于自己的应对方法,掌握常见问题的解决策略,就可以保证k8s集群健康稳定运行,也能避免背运维黑锅。 1. 应用级故障 案例:Pod启动失败或反复重启 症状:Pods持续处于CrashLoopBackOff状态。 当然还有很多意外的故障,不能一一举例,但每个Kubernetes故障都是一个学习机会,深入了解背后的原理能够帮助我们更好地管理和维护集群。记得,最佳的学习方法是实践和分享。

    1.6K11编辑于 2024-02-22
  • 来自专栏山河已无恙

    K8s:Kubernetes 故障排除方法论

    更广泛地说,Kubernetes 故障排除还包括有效的持续故障管理,并采取措施防止 Kubernetes 组件出现问题。 这通常涉及: 查看最近对受影响的集群、Pod 或节点所做的更改,以查看导致故障的原因。 分析运行故障组件的虚拟机或裸机的 YAML 配置、GitHub 存储库和日志。 比较行为相同的类似组件,并分析组件之间的依赖关系,以查看它们是否与故障相关。 Gremlin 是一个混沌工程平台,它提供了多种故障注入工具,包括网络故障、主机故障、应用程序故障等,可以帮助用户测试系统的弹性和可靠性。 ChaosIQ 是一个混沌工程平台,它提供了多种故障注入工具,包括网络故障、主机故障、应用程序故障等,可以帮助用户测试系统的弹性和可靠性。

    72621编辑于 2023-08-21
  • 来自专栏运维小路

    Kubernetes(k8s)-故障检查和故障自愈(NPD(Node Problem Detector))介绍和应用

    Node Problem Detector(NPD)简介 Node Problem Detector(NPD)是Kubernetes社区维护的开源工具,旨在检测节点级别的异常状态(如硬件故障、内核问题、 核心应用场景 硬件故障:如CPU/内存/磁盘异常。 内核问题:如死锁、文件系统损坏。 容器运行时异常:Docker假死、CRI-O崩溃。 基础设施服务故障:NTP服务失效、网络插件异常(如Calico/Flannel)。 verbs: ["get", "list", "watch", "update", "patch", "delete"] --- apiVersion: rbac.authorization.k8s.io : ClusterRoleBinding metadata: name: node-repair-binding roleRef: apiGroup: rbac.authorization.k8s.io

    82910编辑于 2025-03-29
  • 来自专栏AI科技时讯

    XGB-8: Xgboost加速故障时间的生存分析

    8列表示特征,最后一列“生存时间”表示标签。 加速故障时间模型 加速失效时间(AFT) 模型是生存分析中最常用的模型之一。

    76810编辑于 2024-05-30
  • 来自专栏云云众生s

    使用Kubernetes Explorer简化K8s故障排除

    全新的可观测性体验增强了可见性和可视化效果,从而实现更快、更好的故障排除。 推出了 Kubernetes Explorer,这是该公司可观测性平台的一个新增功能,旨在简化云原生环境的可视化和故障排除。 Kubernetes Explorer 与这种智能 AI 方法相结合,可以创建自定义的、特定于事件的可视化效果,充当事实上的 K8s 助手,以支持值班工程师的故障排除工作。 然后,AI Investigator可以介入并提供故障排除建议。 他还将Observe的代理AI方法应用于K8s故障排除称为行业中的“独特”方法,并肯定它是唯一能够解决DevOps团队、SRE和长期以来难以有效监控K8s部署应用程序的工程师的难题的工具:“工程师需要当前的可观察性产品无法提供的可操作的见解

    42500编辑于 2024-11-22
  • 来自专栏devops_k8s

    k8s集群5个故障案例分析

    1 简介 最近看到了一份收集Kubernetes故障案例的资料,资料由ZalandoTech的高级首席工程师Henning Jacobs加以维护。 k8s.af上的案例由工程师和实施者编写,描述了许多糟糕的经历:比如导致高延迟的CPU限制、阻止自动扩展的IP上限、应用程序日志丢失、pod被终止、502 错误、部署缓慢和生产环境故障等。 愿通过分析这些失败案例,大家可以学会如何更好地配置和改进K8s环境。 2 CPU限制导致高延迟 设定CPU限制是把双刃剑。 即使在运行k8s几年后,我们仍在学习其奥秘。” 应谨慎对待取消CPU限制。相反,Khun建议“升级内核版本,而不是消除CPU限制。 6 k8s开发集群上惊现加密货币挖矿软件 随着加密货币价值越来越高,黑客们伺机寻找易受攻击的计算能力,以窃取加密货币。

    3.3K40编辑于 2022-03-14
  • 来自专栏全栈程序员必看

    公司测试环境k8s节点故障解决

    测试环境 ip地址 信息 192.168.1.215 k8s主节点 、etcd 192.168.1.216 k8s从节点、etcd 192.168.1.139 kvm 报错: 从215服务器上面可以看到使用 k8s的命令就是没反应 要不就是回复的是时间超时! running 73 k8s_node01 running - donghang shut off virsh reboot k8s_node01 ##进行重启 virsh reboot k8s-node02 等待几分钟重启一下 然后我们分别登录到215和216服务器进行查看一下 然后 get cs 可以发现可以使用命令,并且集群正常 治标不治本 根本原因还要去寻找,不然可能还会导致连续的宕机 治本 可能是节点的资源不够磁盘使用量过大导致的 然后再进行更新发布项目的时候会直接使k8s

    76910发布于 2021-06-08
  • 来自专栏DotNet NB && CloudNative

    精:在 .NET 8中使用 Polly 处理瞬态故障

    在本文中,我们将学习如何在与服务交互时实现重试机制,尤其当服务出现一些瞬态故障时。 什么是瞬态故障? 瞬态故障是指持续时间较短的故障。 对于瞬态故障故障持续时间通常很短,服务很快会恢复。因此,为了提高容错性,可以在失败后重试多次,然后再接受失败结果。 我们可以通过重试策略来处理瞬态故障,也就是不断重新尝试请求,直到成功或达到重试上限。 重试策略的配置选项 重试次数:定义最大重试次数。 重试间隔时间:定义每次重试之间的时间间隔。 策略 3:指数回退重试 5 次 根据此策略,系统会在请求之间采用指数级等待时间,例如 1 秒、3 秒、5 秒、8 秒。 我们可以使用 Polly 实现这些重试机制,并通过基于类的配置实现。 译文地址:c-sharpcorner.com/article/handling-transient-failures-in-net-8-with-polly

    1.5K10编辑于 2024-12-10
  • 来自专栏拆装与维修

    高创伺服驱动器故障维修(8.闪烁)

    ​目录: 一、高创概述 二、故障现象 三、PCBA概况 四、维修过程 1、确定外部连接 2、查找故障代码 3、故障部分手绘电路图 五、伺服驱动器原理图详解 一、高创概述 本次维修的是CDHD-0032AAP1 二、故障现象 故障现象视频截图如下,“8.”不停的闪亮。 若只接L1C、L2C,L1、L2未加电,开机自检故障代码“u”,电压过低 。 2、查找故障代码 在“CDHD伺服驱动器入门指南CN7.2”搜索“8.”,第64页可以看出故障代码。 从代码可以大致确定故障范围,有效缩短维修时长,这是一个基本思路。 检查EMBR开关并未发现异常,按动开关也没有什么反应。 3、故障部分手绘电路图 退去D205/SS16快速恢复二极管,发现故障依旧,那么说明不是负载有故障,而是电源自身异常。

    3.7K10编辑于 2024-01-14
  • 来自专栏有点技术

    K8S deployment可视化故障排查指南

    any-name: my-app spec: containers: - name: cont1 image: learnk8s ports: - port: 80 targetPort: 8080 selector: name: app --- apiVersion: networking.k8s.io any-name: my-app spec: containers: - name: cont1 image: learnk8s - port: 80 targetPort: 8080 selector: any-name: my-app --- apiVersion: networking.k8s.io Pod故障排除 在大多数情况下,问题出在Pod本身。 您应该确保Pod正在运行并准备就绪。 您如何检查?

    3.3K10发布于 2020-07-13
  • 来自专栏Tungsten Fabric中文社区

    Tungsten Fabric入门宝典丨8个典型故障及排查Tips

    (这在诸如以kubectl描述pod的各个地方都可以看到) networkPlugin cni failed to set up pod "coredns-5644d7b6d9-p8fkk_kube-system

    1.1K20发布于 2020-06-05
  • 来自专栏YP小站

    K8S故障排查指南- but volume paths are still present on disk

    kubelet 默认把一些数据信息存放在 /var/lib/kubelet 目录下,通过 Pod Id,能查找到 9e6d9bdd-1554-45e6-8831-53e83f8ea263 pod 挂载的数据 # 查看 pods 下面数据 $ ls /var/lib/kubelet/pods/9e6d9bdd-1554-45e6-8831-53e83f8ea263/ containers etc-hosts # 查看 etc-hosts 文件中 pod name 名称 $ cat /var/lib/kubelet/pods/9e6d9bdd-1554-45e6-8831-53e83f8ea263/etc-hosts # 删除 9e6d9bdd-1554-45e6-8831-53e83f8ea263 目录 $ cd /var/lib/kubelet/pods/ $ rm -rf 9e6d9bdd-1554-45e6 -8831-53e83f8ea263 现在在通过 journalctl -u kubelet -f 命令看kubelet日志,就没有 Orphaned pod found - but volume paths

    1.2K20发布于 2020-07-01
领券