搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏院长运维开发
K8S内核故障
k8s已经无法管理node节点，node节点pod节点全挂了 ?
2.2K20发布于 2020-06-16
来自专栏大数据成长之路
HDFS中namenode故障恢复(8)
value>file:///export/servers/Hadoop-2.6.0-cdh5.14.0/HadoopDatas/dfs/nn/snn/edits</value> </property> 故障恢复步骤 start-all.sh 4.浏览器页面正常访问 http://xxxx:50070/explorer.html#/【xxxx为namenode所在节点的ip】发现一切正常,说明故障恢复成功
68110发布于 2021-01-22
来自专栏希里安
k8s故障排查常用方法
-- SRETALK 9月14日 k8s更新了1.28.2版本，这更新速度杠杠的，你们还在用什么版本，停留在1.18-1.20的小伙伴举个手 --k8s k8s故障排查常用方式在Kubernetes中排查故障是一个常见但有时复杂的任务以下是常用的方式和方法，可以帮排查Kubernetes中的故障：查看Pod状态和事件：使用 kubectl get pods 命令来获取Pod的状态。升级和维护：确保Kubernetes集群和应用程序组件处于最新版本，因为某些故障可能已在较新的版本中修复。在排查故障时，重要的是有系统地方法来分析问题，从Pod级别到节点级别，甚至到集群级别。同时，建议使用自动化工具来监视和报警，在故障发生时快速采取措施，以减少影响。
76440编辑于 2023-10-30
来自专栏Tensorbytes
k8s故障问题收集帖
] Error adding local-path-storage_local-path-provisioner-ccbdd96dc-cbthj/ 0d2b1cd6de25ac114e2075f70f8ac25ef72b299048e728038086f3e7324f400a failed: rpc error: code = Unknown desc = failed to set up sandbox container “0d2b1cd6de25ac114e2075f70f8ac25ef72b299048e728038086f3e7324f400a
2.5K20发布于 2020-02-11
来自专栏IT运维技术圈
经典故障分析报告之-内核参数导致k8s节点故障
运行环境信息：Kubernetes + docker，应用程序：Java 问题描述 1、首先从 Kubernetes 事件中心告警信息如下，该告警集群常规告警事件（其实从下面这些常规告警信息是无法判断是什么故障问题 14:22:06 PROD-BE-K8S-WN8 kubelet[3124]: runtime.startTemplateThread() Dec 22 14:22:06 PROD-BE-K8S-WN8 (*mTreap).end+78> 0000000000000000 二、故障分析根据以上的故障问题初步分析，第一反应是 ulimi -u 值太小，已经被 hit（触及到，突破该参数的上限），于是查看各用户的 * soft nproc 65536 root soft nproc unlimited 查看节点运行的进程：从监控信息可以看到在故障最高使用分析过程 1、从以上监控信息分析，故障时间区间，系统运行的线程略高 31616，但是该值却没有超过当前用户的 ulimit -u 的值，初步排除该线索。
1.6K40编辑于 2023-02-02
来自专栏运维开发故事
k8s故障检测与自愈（一）
组件故障组件故障可以认为是节点故障的子类，只是故障来源是K8S基础组件的一部分。 DNS故障：6个DNS Pod中的2个出现无法解析外部DNS名称的情况。后果是大量线上业务因域名解析。 CNI故障：少数几个节点的容器网络和外部断开，节点访问自身的Pod IP没有问题，但是其它节点无法访问故障节点的Pod IP。可以参考：使用KubeNurse进行集群网络监控乔克，公众号：运维开发故事使用KubeNurse进行集群网络监控节点故障硬件错误: CPU/Memory/磁盘故障 kernel问题: kernel 在裸金属K8S集群中，由于缺乏基础设施的支撑，自动扩充节点可能无法实现，只能通过更加精细的自动化运维，治愈节点的异常状态。 ? 尝试重启容器运行时告警，要求运维人员介入部署NPD实践你需要有一个k8s集群，必须有1个以上的worker节点。
3.7K20发布于 2021-04-26
来自专栏云计算与大数据
k8s|一次故障排查
阿里云有自己的Kubernetes容器集群产品。随着Kubernetes集群出货量的剧增，线上用户零星的发现，集群会非常低概率地出现节点NotReady情况。据我们观察，这个问题差不多每个月，就会有一两个客户遇到。在节点NotReady之后，集群Master没有办法对这个节点做任何控制，比如下发新的Pod，再比如抓取节点上正在运行Pod的实时信息。
3.3K30发布于 2019-06-11
来自专栏希里安
小年快乐，聊聊k8s常见故障！
k8s常见故障 Kubernetes（K8s）是一个开源的容器编排平台，用于自动化容器的部署、扩展和管理。尽管它是一个健壮的系统，但在使用中不可避免的会遇到一些故障。控制平面故障: API服务器宕机或响应缓慢。 etcd集群问题，如数据不一致、性能问题或全面故障。调度器、控制器管理器的故障。节点级故障: 节点宕机。 kubelet故障。容器运行时故障。只要冷静沉着应对，总结一套属于自己的应对方法，掌握常见问题的解决策略，就可以保证k8s集群健康稳定运行，也能避免背运维黑锅。 1. 应用级故障案例：Pod启动失败或反复重启症状：Pods持续处于CrashLoopBackOff状态。当然还有很多意外的故障，不能一一举例，但每个Kubernetes故障都是一个学习机会，深入了解背后的原理能够帮助我们更好地管理和维护集群。记得，最佳的学习方法是实践和分享。
1.7K11编辑于 2024-02-22
来自专栏互联网-小阿宇
公司测试环境k8s节点故障解决
测试环境 ip地址信息 192.168.1.215 k8s主节点、etcd 192.168.1.216 k8s从节点、etcd 192.168.1.139 kvm 报错：从215服务器上面可以看到使用 k8s的命令就是没反应要不就是回复的是时间超时！ running 73 k8s_node01 running - donghang shut off virsh reboot k8s_node01 ##进行重启 virsh reboot k8s-node02 等待几分钟重启一下然后我们分别登录到215和216服务器进行查看一下然后 get cs 可以发现可以使用命令，并且集群正常治标不治本根本原因还要去寻找，不然可能还会导致连续的宕机治本可能是节点的资源不够磁盘使用量过大导致的然后再进行更新发布项目的时候会直接使k8s
78340编辑于 2022-11-21
来自专栏山河已无恙
K8s：Kubernetes 故障排除方法论
更广泛地说，Kubernetes 故障排除还包括有效的持续故障管理，并采取措施防止 Kubernetes 组件出现问题。这通常涉及：查看最近对受影响的集群、Pod 或节点所做的更改，以查看导致故障的原因。分析运行故障组件的虚拟机或裸机的 YAML 配置、GitHub 存储库和日志。比较行为相同的类似组件，并分析组件之间的依赖关系，以查看它们是否与故障相关。 Gremlin 是一个混沌工程平台，它提供了多种故障注入工具，包括网络故障、主机故障、应用程序故障等，可以帮助用户测试系统的弹性和可靠性。 ChaosIQ 是一个混沌工程平台，它提供了多种故障注入工具，包括网络故障、主机故障、应用程序故障等，可以帮助用户测试系统的弹性和可靠性。
84921编辑于 2023-08-21
来自专栏运维小路
Kubernetes(k8s)-故障检查和故障自愈(NPD(Node Problem Detector))介绍和应用
Node Problem Detector（NPD）简介 Node Problem Detector（NPD）是Kubernetes社区维护的开源工具，旨在检测节点级别的异常状态（如硬件故障、内核问题、核心应用场景硬件故障：如CPU/内存/磁盘异常。内核问题：如死锁、文件系统损坏。容器运行时异常：Docker假死、CRI-O崩溃。基础设施服务故障：NTP服务失效、网络插件异常（如Calico/Flannel）。 verbs: ["get", "list", "watch", "update", "patch", "delete"] --- apiVersion: rbac.authorization.k8s.io : ClusterRoleBinding metadata: name: node-repair-binding roleRef: apiGroup: rbac.authorization.k8s.io
94310编辑于 2025-03-29
来自专栏云云众生s
使用Kubernetes Explorer简化K8s故障排除
全新的可观测性体验增强了可见性和可视化效果，从而实现更快、更好的故障排除。推出了 Kubernetes Explorer，这是该公司可观测性平台的一个新增功能，旨在简化云原生环境的可视化和故障排除。 Kubernetes Explorer 与这种智能 AI 方法相结合，可以创建自定义的、特定于事件的可视化效果，充当事实上的 K8s 助手，以支持值班工程师的故障排除工作。然后，AI Investigator可以介入并提供故障排除建议。他还将Observe的代理AI方法应用于K8s故障排除称为行业中的“独特”方法，并肯定它是唯一能够解决DevOps团队、SRE和长期以来难以有效监控K8s部署应用程序的工程师的难题的工具：“工程师需要当前的可观察性产品无法提供的可操作的见解
53100编辑于 2024-11-22
来自专栏AI科技时讯
XGB-8: Xgboost加速故障时间的生存分析
前8列表示特征，最后一列“生存时间”表示标签。加速故障时间模型加速失效时间（AFT）模型是生存分析中最常用的模型之一。
82010编辑于 2024-05-30
来自专栏全栈程序员必看
公司测试环境k8s节点故障解决
测试环境 ip地址信息 192.168.1.215 k8s主节点、etcd 192.168.1.216 k8s从节点、etcd 192.168.1.139 kvm 报错：从215服务器上面可以看到使用 k8s的命令就是没反应要不就是回复的是时间超时！ running 73 k8s_node01 running - donghang shut off virsh reboot k8s_node01 ##进行重启 virsh reboot k8s-node02 等待几分钟重启一下然后我们分别登录到215和216服务器进行查看一下然后 get cs 可以发现可以使用命令，并且集群正常治标不治本根本原因还要去寻找，不然可能还会导致连续的宕机治本可能是节点的资源不够磁盘使用量过大导致的然后再进行更新发布项目的时候会直接使k8s
79810发布于 2021-06-08
来自专栏devops_k8s
k8s集群5个故障案例分析
1 简介最近看到了一份收集Kubernetes故障案例的资料，资料由ZalandoTech的高级首席工程师Henning Jacobs加以维护。 k8s.af上的案例由工程师和实施者编写，描述了许多糟糕的经历：比如导致高延迟的CPU限制、阻止自动扩展的IP上限、应用程序日志丢失、pod被终止、502 错误、部署缓慢和生产环境故障等。愿通过分析这些失败案例，大家可以学会如何更好地配置和改进K8s环境。 2 CPU限制导致高延迟设定CPU限制是把双刃剑。即使在运行k8s几年后，我们仍在学习其奥秘。” 应谨慎对待取消CPU限制。相反，Khun建议“升级内核版本，而不是消除CPU限制。 6 k8s开发集群上惊现加密货币挖矿软件随着加密货币价值越来越高，黑客们伺机寻找易受攻击的计算能力，以窃取加密货币。
3.4K40编辑于 2022-03-14
来自专栏DotNet NB && CloudNative
精：在 .NET 8中使用 Polly 处理瞬态故障
在本文中，我们将学习如何在与服务交互时实现重试机制，尤其当服务出现一些瞬态故障时。什么是瞬态故障？瞬态故障是指持续时间较短的故障。对于瞬态故障，故障持续时间通常很短，服务很快会恢复。因此，为了提高容错性，可以在失败后重试多次，然后再接受失败结果。我们可以通过重试策略来处理瞬态故障，也就是不断重新尝试请求，直到成功或达到重试上限。重试策略的配置选项重试次数：定义最大重试次数。重试间隔时间：定义每次重试之间的时间间隔。策略 3：指数回退重试 5 次根据此策略，系统会在请求之间采用指数级等待时间，例如 1 秒、3 秒、5 秒、8 秒。我们可以使用 Polly 实现这些重试机制，并通过基于类的配置实现。译文地址：c-sharpcorner.com/article/handling-transient-failures-in-net-8-with-polly
1.7K10编辑于 2024-12-10
来自专栏拆装与维修
高创伺服驱动器故障维修(8.闪烁)
目录：一、高创概述二、故障现象三、PCBA概况四、维修过程 1、确定外部连接 2、查找故障代码 3、故障部分手绘电路图五、伺服驱动器原理图详解一、高创概述本次维修的是CDHD-0032AAP1 二、故障现象故障现象视频截图如下，“8.”不停的闪亮。若只接L1C、L2C，L1、L2未加电，开机自检故障代码“u”，电压过低。 2、查找故障代码在“CDHD伺服驱动器入门指南CN7.2”搜索“8.”，第64页可以看出故障代码。 3、故障部分手绘电路图退去 D205/SS16快恢复二极管，发现故障依旧，那么说明不是负载有故障，而是电源自身异常。后更换此芯片，故障排除。C141/47uF电解电容一并更换。
4.2K10编辑于 2026-07-06
来自专栏有点技术
K8S deployment可视化故障排查指南
any-name: my-app spec: containers: - name: cont1 image: learnk8s ports: - port: 80 targetPort: 8080 selector: name: app --- apiVersion: networking.k8s.io any-name: my-app spec: containers: - name: cont1 image: learnk8s - port: 80 targetPort: 8080 selector: any-name: my-app --- apiVersion: networking.k8s.io Pod故障排除在大多数情况下，问题出在Pod本身。您应该确保Pod正在运行并准备就绪。您如何检查？
3.5K10发布于 2020-07-13
来自专栏YP小站
K8S故障排查指南- but volume paths are still present on disk
kubelet 默认把一些数据信息存放在 /var/lib/kubelet 目录下，通过 Pod Id，能查找到 9e6d9bdd-1554-45e6-8831-53e83f8ea263 pod 挂载的数据 # 查看 pods 下面数据 $ ls /var/lib/kubelet/pods/9e6d9bdd-1554-45e6-8831-53e83f8ea263/ containers etc-hosts # 查看 etc-hosts 文件中 pod name 名称 $ cat /var/lib/kubelet/pods/9e6d9bdd-1554-45e6-8831-53e83f8ea263/etc-hosts # 删除 9e6d9bdd-1554-45e6-8831-53e83f8ea263 目录 $ cd /var/lib/kubelet/pods/ $ rm -rf 9e6d9bdd-1554-45e6 -8831-53e83f8ea263 现在在通过 journalctl -u kubelet -f 命令看kubelet日志，就没有 Orphaned pod found - but volume paths
1.3K20发布于 2020-07-01
来自专栏程序员吾真本
K8S故障注入混沌工程开源平台ChaosMesh
Chaos Mesh 是针对K8S的云原生混沌工程开源平台。可以用它方便地模拟开发、测试、生产环境中可能出现的各种异常情况，发现系统中潜在的问题。创建者研发支持混合事务与分析处理的开源数据库TiDB的PingCap公司一句话介绍 ChaosMesh是针对K8S的云原生开源混沌工程平台。安全控制安全控制，包括使用K8S原生提供的基于角色的访问控制功能，来管理故障注入的使用权限。还可以通过设置命名空间注解，来指定允许进行混沌实验的命名空间，进一步保障对混沌实验的控制。优势能提供K8S平台上的基础资源、平台和应用故障模拟。具有故障场景编排能力。为了降低混沌工程项目的门槛，Chaos Mesh提供了可视化操作。使用K8S原生提供的基于角色的访问控制功能，来管理故障注入的使用权限。劣势只能在K8S集群上使用。否则，就只能使用针对节点进行故障注入实验的附带工具chaosd。临时执行的实验会无限期地运行。
70820编辑于 2023-08-15

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

K8S内核故障

HDFS中namenode故障恢复(8)

k8s故障排查常用方法

k8s故障问题收集帖

经典故障分析报告之-内核参数导致k8s节点故障

k8s故障检测与自愈（一）

k8s|一次故障排查

小年快乐，聊聊k8s常见故障！

公司测试环境k8s节点故障解决

K8s：Kubernetes 故障排除方法论

Kubernetes(k8s)-故障检查和故障自愈(NPD(Node Problem Detector))介绍和应用

使用Kubernetes Explorer简化K8s故障排除

XGB-8: Xgboost加速故障时间的生存分析

公司测试环境k8s节点故障解决

k8s集群5个故障案例分析

精：在 .NET 8中使用 Polly 处理瞬态故障

高创伺服驱动器故障维修(8.闪烁)

K8S deployment可视化故障排查指南

K8S故障排查指南- but volume paths are still present on disk

K8S故障注入混沌工程开源平台ChaosMesh

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐