搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏用户9757876的专栏
服务器故障邮件报警
说到服务器硬件监测，用得最多的自然是Zabbix和prometheus，可是对于一般用户来说，部署要求比较高，而且也没有必要。只是监测服务器硬件故障，并且发生问题的时候，以邮件形式告警，那么服务器自带的功能就足以。比如戴尔服务器的idrac，配置硬件故障的邮件告警就非常简单。如上图所示，首先填写邮件发送服务器的地址，其次就是填写发件人邮件地址，然后就是SMTP端口号，采用SSL协议的话，端口号就填写465；最后填写用户名和密码，就是发件人的邮件账号和密码。收件人邮件地址，当然也需要填写，不然故障报给谁呢？然后可以“发送”测试邮件，一般都是秒收，如果没收到，就检查SMTP配置。我比较关注系统运行状况和存储，尤其是存储，重要的数据都在硬盘里面呢，其他硬件故障，相对来说，没那么重要，电源坏了，可以换，内存坏个一两条，也无伤大雅。硬盘要是坏了，那就损失大了。
1.1K30编辑于 2023-09-06
来自专栏大数据成长之路
HDFS中namenode故障恢复(8)
value>file:///export/servers/Hadoop-2.6.0-cdh5.14.0/HadoopDatas/dfs/nn/snn/edits</value> </property> 故障恢复步骤 start-all.sh 4.浏览器页面正常访问 http://xxxx:50070/explorer.html#/【xxxx为namenode所在节点的ip】发现一切正常,说明故障恢复成功
58610发布于 2021-01-22
来自专栏院长运维开发
K8S内核故障
测试 2-3分钟内，服务器会死掉，模拟测试连续触发OOM问题直到CPU耗尽。服务器自动重启 kernel: BUG: soft lockup - CPU#4 stuck for 22s! k8s已经无法管理node节点，node节点pod节点全挂了 ? 总结：暂时灰度部分服务器升级内核到4.1.19。后续补充升级内核操作 ?
2.2K20发布于 2020-06-16
IDC服务器故障排除思路
2、备件准备硬盘、内存、CPU、主板、电源模块等备件二、常规检查在不拆机、不断电的情况下检查故障服务器1、检查开机状态下服务器指示灯是否正常2、检查有无明显异味、有无明显异响3、检查外观有无明显磕碰、变形等物理损伤 4、检查电源线、电源开关是否正常5、登录BMC系统，查看设备状态和日志，定位故障服务器部件6、在授权可以关机断电的情况下，重启服务器，查看BIOS信息和BMCSEL信息定位服务器故障部件7、如确定为可热插拔的设备造成如果最小化可以正常开机，再逐步添加其他部件，通过重启服务器来判断是哪个部件故障。2、替换法当大概知道故障范围时，可以通过1-3个部件逐步替换来查找出具体故障，检查故障现象是否有变化，来确认具体故障点。通过逐一替换服务器内的疑似故障部件，观察故障现象是否消失，以此定位故障部件。可以先替换比较容易出故障的部件，比如硬盘、内存等。 &TX的dropped和error是否为0，如果不为0，则存在问题4）更换网卡后依旧存在故障，则更换主板5）更换网卡后，如果故障消失，需要在OS下对网卡状态和网络传输状况进行复查8、BMC故障1）使用网线将笔记本电脑连接到
2.3K10编辑于 2024-10-06
来自专栏鹅厂网事
服务器硬盘故障预测实践
理论上服役时间越长的服务器发生故障的几率也将越大，从腾讯全网服务器的统计结果也表明服务器老龄化的加剧，故障概率会加速上升，特别是使用年份超过4年的设备故障率将出现陡升的情况，显而易见高故障率的老龄化设备将对现网业务造成巨大的影响我们的服务器使用年限超过5年后，硬盘故障率都是非常高。 ? 于是乎，想快速有效的降低服务器故障的影响，核心就在于降低硬盘故障的影响。或许这些服务器配置信息能给出一些统计结果，我们想要的是即将故障的硬盘，而不是这些差异性不大的各个集合的整体故障率。为了支持我们提供了运营模型设置，主要包括服务器类型，上架年限，服务器健康度，业务模块，预测比，坏块比，性能参数等，系统会根据这个设置表，对满足其中任意一条规则的预测故障盘，自动发起故障流程。 6 总体框架结合上面几点，基本上就得到了我们的系统总体框架，如图8所示。这里提到了SMART阈值检查可以作为一种简单的判断过程，它会将SMART的核心项远远超过正常值的情况直接判断为预故障。
14.9K90发布于 2018-02-06
来自专栏Tensorbytes
k8s故障问题收集帖
] Error adding local-path-storage_local-path-provisioner-ccbdd96dc-cbthj/ 0d2b1cd6de25ac114e2075f70f8ac25ef72b299048e728038086f3e7324f400a failed: rpc error: code = Unknown desc = failed to set up sandbox container “0d2b1cd6de25ac114e2075f70f8ac25ef72b299048e728038086f3e7324f400a
2.4K20发布于 2020-02-11
来自专栏希里安
k8s故障排查常用方法
-- SRETALK 9月14日 k8s更新了1.28.2版本，这更新速度杠杠的，你们还在用什么版本，停留在1.18-1.20的小伙伴举个手 --k8s k8s故障排查常用方式在Kubernetes中排查故障是一个常见但有时复杂的任务以下是常用的方式和方法，可以帮排查Kubernetes中的故障：查看Pod状态和事件：使用 kubectl get pods 命令来获取Pod的状态。升级和维护：确保Kubernetes集群和应用程序组件处于最新版本，因为某些故障可能已在较新的版本中修复。在排查故障时，重要的是有系统地方法来分析问题，从Pod级别到节点级别，甚至到集群级别。同时，建议使用自动化工具来监视和报警，在故障发生时快速采取措施，以减少影响。
65940编辑于 2023-10-30
来自专栏landv
故障排除和本地开发服务器
故障排除以下是一些常见的安装问题，以及建议的解决方法。仅加载默认页面如果你发现无论你在URL中放入什么内容，只会加载默认页面，可能是你的服务器不支持提供搜索引擎友好URL所需的REQUEST_URI变量。本地开发服务器 PHP 提供了一个内置的可以在本地使用进行开发的 Web 服务器，免去了安装如 MAMP，XAMPP 等独立 Web 服务器的需要。如果你在你的开发机器上安装了 PHP，你可以使用 serve 指令来启动 PHP 的内置服务器，完全安装并用于运行你的 CodeIgniter 应用程序。 :8000 这将启动服务器，并且你可以在浏览器中访问 http://localhost:8000 来查看你的应用程序。
4.9K10发布于 2020-03-04
来自专栏IT运维技术圈
经典故障分析报告之-内核参数导致k8s节点故障
运行环境信息：Kubernetes + docker，应用程序：Java 问题描述 1、首先从 Kubernetes 事件中心告警信息如下，该告警集群常规告警事件（其实从下面这些常规告警信息是无法判断是什么故障问题 14:22:06 PROD-BE-K8S-WN8 kubelet[3124]: runtime.startTemplateThread() Dec 22 14:22:06 PROD-BE-K8S-WN8 (*mTreap).end+78> 0000000000000000 二、故障分析根据以上的故障问题初步分析，第一反应是 ulimi -u 值太小，已经被 hit（触及到，突破该参数的上限），于是查看各用户的 * soft nproc 65536 root soft nproc unlimited 查看节点运行的进程：从监控信息可以看到在故障最高使用分析过程 1、从以上监控信息分析，故障时间区间，系统运行的线程略高 31616，但是该值却没有超过当前用户的 ulimit -u 的值，初步排除该线索。
1.5K40编辑于 2023-02-02
来自专栏开源部署
Linux服务器故障排查基本方案
服务器架构 服务器系统为Centos7 首先需要知晓系统的对外的架构一般架构： 1.域名--->云服务器（ECS） 2.域名--->CDN--->云服务器（OSS） 3.域名--->CDN--- >云服务器ECS+数据库RDS+缓存Redis 4.域名--->CDN--->负载均衡--->云服务器ECS+数据库RDS(主从)+缓存Redis 5.域名--->CDN-->WAF防火墙--->负载均衡 ECS服务器负载是否正常、cpu、内存负载是否过高，硬盘使用率是否达到100%等缓存服务器 redis服务器负载是否正常、内存使用率如何数据库服务器 数据库连接数是否正常列出当前用户的所有连接信息 -e9717edb-39a8-410c-88e2-d8f1b3b2906f.png? 61.37.80.0/24 -j DROP #屏蔽单个IP的命令是 deny 123.45.6.7 #封整个段即从123.0.0.1到123.255.255.254的命令 deny 123.0.0.0/8
1.1K10编辑于 2022-05-27
来自专栏小网管的运维之路
查看服务器性能及快速故障定位
查看服务器性能及快速故障定位适应环境 - Linux 连通性 curl ="[04/Apr/2017:12:25:00" && $4 <="[04/Apr/2017:12:26:00"' blog.log #过滤第四列的项，输出大于等于25分，小于等于26分的访问日志故障定位 -w dst.pcap #过滤出端口为22，且含有 FIN 标记的数据包 tcpdump -i eth0 -s 0 -l -w out.log port 3306 | strings #在数据库服务器是通过
1.9K20发布于 2019-05-28
来自专栏运维开发故事
k8s故障检测与自愈（一）
组件故障组件故障可以认为是节点故障的子类，只是故障来源是K8S基础组件的一部分。 DNS故障：6个DNS Pod中的2个出现无法解析外部DNS名称的情况。后果是大量线上业务因域名解析。 CNI故障：少数几个节点的容器网络和外部断开，节点访问自身的Pod IP没有问题，但是其它节点无法访问故障节点的Pod IP。可以参考：使用KubeNurse进行集群网络监控乔克，公众号：运维开发故事使用KubeNurse进行集群网络监控节点故障硬件错误: CPU/Memory/磁盘故障 kernel问题: kernel 在裸金属K8S集群中，由于缺乏基础设施的支撑，自动扩充节点可能无法实现，只能通过更加精细的自动化运维，治愈节点的异常状态。 ? 尝试重启容器运行时告警，要求运维人员介入部署NPD实践你需要有一个k8s集群，必须有1个以上的worker节点。
3.6K20发布于 2021-04-26
来自专栏DotNet 致知
15_处理服务器端故障
http://mpvideo.qpic.cn/0b78deaagaaaieaoadgjvjpvagodammqaaya.f10002.mp4?dis_k=f6e1009af0e7395ce663923
1.2K30编辑于 2022-03-29
来自专栏云计算与大数据
k8s|一次故障排查
Containerd作为一个gRPC的服务器，它会在接到docker daemon的远程请求之后，新建一个线程去处理这次请求。关于gRPC的细节，我们这里其实不用关注太多。
3.2K30发布于 2019-06-11
来自专栏技术杂记
日志服务器（8）
客户端操作测试 [root@h202 ~]# ls anaconda-ks.cfg Downloads ip.log Music plot Templates vmware-tools-distrib Desktop install.log logger packages Public Videos zk Documents
1.1K20发布于 2021-10-20
来自专栏用户9757876的专栏
服务器故障、网络故障能提早知道？教你一招搞定
在多年的IT外包服务过程中发现，一旦客户的网络或者服务器出现故障，如果我们能比客户先知道，并且迅速响应、解决问题，客户的满意度就会非常高。那么，怎样才能做到服务器故障早知道呢？在企业的IT基础设施中，服务器的健康状况是至关重要的，特别是Windows服务器，因为它们通常执行关键的业务应用程序。 3.安装过程中，按照提示设置合适的Hostname，填写Zabbix服务器的地址，注意，我习惯用域名来作为服务器地址，这样，当服务器IP变化的时候，就不用修改很多个客户端了，是个省事的好习惯。随着你对Zabbix功能的深入了解，你将能够更有效地管理和维护你的服务器。比如，Zabbix可以直接监测服务器的硬件性能，就算是服务器重启一下，也会收到邮件。虽然不一定知道重启的原因，但是如果这个时候，客户跟你说断网了，你就能回答：“路由器重启中，估计3分钟内恢复网络，如果还是有故障，我们会第一时间处理。” 是不是很酷？想来客户一定会很满意的！
58410编辑于 2024-05-08
来自专栏互联网-小阿宇
公司测试环境k8s节点故障解决
测试环境 ip地址信息 192.168.1.215 k8s主节点、etcd 192.168.1.216 k8s从节点、etcd 192.168.1.139 kvm 报错：从215服务器上面可以看到使用 k8s的命令就是没反应要不就是回复的是时间超时！由于可能服务器ssh登录服务器可能会慢尝试登录139服务器，215和216服务器都是从129虚出来的直接登录用过kvm的命令进行执行重启服务器 那么到了139服务器之后先看一下KVM虚拟机都有哪些 - hywater shut off - k8s-m1 shut off 我们将主节点的和从节点的服务器进行重启 virsh reboot k8s_node01 ##进行重启 virsh reboot k8s-node02 等待几分钟重启一下然后我们分别登录到215和216服务器进行查看一下然后
69840编辑于 2022-11-21
来自专栏希里安
小年快乐，聊聊k8s常见故障！
k8s常见故障 Kubernetes（K8s）是一个开源的容器编排平台，用于自动化容器的部署、扩展和管理。尽管它是一个健壮的系统，但在使用中不可避免的会遇到一些故障。控制平面故障: API服务器宕机或响应缓慢。 etcd集群问题，如数据不一致、性能问题或全面故障。调度器、控制器管理器的故障。节点级故障: 节点宕机。 kubelet故障。容器运行时故障。只要冷静沉着应对，总结一套属于自己的应对方法，掌握常见问题的解决策略，就可以保证k8s集群健康稳定运行，也能避免背运维黑锅。 1. 应用级故障案例：Pod启动失败或反复重启症状：Pods持续处于CrashLoopBackOff状态。当然还有很多意外的故障，不能一一举例，但每个Kubernetes故障都是一个学习机会，深入了解背后的原理能够帮助我们更好地管理和维护集群。记得，最佳的学习方法是实践和分享。
1.5K11编辑于 2024-02-22
来自专栏山河已无恙
K8s：Kubernetes 故障排除方法论
更广泛地说，Kubernetes 故障排除还包括有效的持续故障管理，并采取措施防止 Kubernetes 组件出现问题。这通常涉及：查看最近对受影响的集群、Pod 或节点所做的更改，以查看导致故障的原因。分析运行故障组件的虚拟机或裸机的 YAML 配置、GitHub 存储库和日志。比较行为相同的类似组件，并分析组件之间的依赖关系，以查看它们是否与故障相关。 Gremlin 是一个混沌工程平台，它提供了多种故障注入工具，包括网络故障、主机故障、应用程序故障等，可以帮助用户测试系统的弹性和可靠性。 ChaosIQ 是一个混沌工程平台，它提供了多种故障注入工具，包括网络故障、主机故障、应用程序故障等，可以帮助用户测试系统的弹性和可靠性。
63221编辑于 2023-08-21
来自专栏鹅厂网事
【鹅厂网事】服务器硬盘故障预测实践
理论上服役时间越长的服务器发生故障的几率也将越大，从腾讯全网服务器的统计结果也表明服务器老龄化的加剧，故障概率会加速上升，特别是使用年份超过4年的设备故障率将出现陡升的情况，显而易见高故障率的老龄化设备将对现网业务造成巨大的影响我们的服务器使用年限超过5年后，硬盘故障率都是非常高。于是乎，想快速有效的降低服务器故障的影响，核心就在于降低硬盘故障的影响。或许这些服务器配置信息能给出一些统计结果，我们想要的是即将故障的硬盘，而不是这些差异性不大的各个集合的整体故障率。为了支持我们提供了运营模型设置，主要包括服务器类型，上架年限，服务器健康度，业务模块，预测比，坏块比，性能参数等，系统会根据这个设置表，对满足其中任意一条规则的预测故障盘，自动发起故障流程。 6 总体框架结合上面几点，基本上就得到了我们的系统总体框架，如图8所示。这里提到了SMART阈值检查可以作为一种简单的判断过程，它会将SMART的核心项远远超过正常值的情况直接判断为预故障。
2.3K10编辑于 2023-03-07

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

服务器故障邮件报警

HDFS中namenode故障恢复(8)

K8S内核故障

IDC服务器故障排除思路

服务器硬盘故障预测实践

k8s故障问题收集帖

k8s故障排查常用方法

故障排除和本地开发服务器

经典故障分析报告之-内核参数导致k8s节点故障

Linux服务器故障排查基本方案

查看服务器性能及快速故障定位

k8s故障检测与自愈（一）

15_处理服务器端故障

k8s|一次故障排查

日志服务器（8）

服务器故障、网络故障能提早知道？教你一招搞定

公司测试环境k8s节点故障解决

小年快乐，聊聊k8s常见故障！

K8s：Kubernetes 故障排除方法论

【鹅厂网事】服务器硬盘故障预测实践

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐