首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏用户9757876的专栏

    服务器故障邮件报警

    说到服务器硬件监测,用得最多的自然是Zabbix和prometheus,可是对于一般用户来说,部署要求比较高,而且也没有必要。 只是监测服务器硬件故障,并且发生问题的时候,以邮件形式告警,那么服务器自带的功能就足以。 比如戴尔服务器的idrac,配置硬件故障的邮件告警就非常简单。 如上图所示,首先填写邮件发送服务器的地址,其次就是填写发件人邮件地址,然后就是SMTP端口号,采用SSL协议的话,端口号就填写465;最后填写用户名和密码,就是发件人的邮件账号和密码。 收件人邮件地址,当然也需要填写,不然故障报给谁呢?然后可以“发送”测试邮件,一般都是秒收,如果没收到,就检查SMTP配置。 我比较关注系统运行状况和存储,尤其是存储,重要的数据都在硬盘里面呢,其他硬件故障,相对来说,没那么重要,电源坏了,可以换,内存坏个一两条,也无伤大雅。硬盘要是坏了,那就损失大了。

    1.1K30编辑于 2023-09-06
  • 来自专栏大数据成长之路

    HDFS中namenode故障恢复(8)

    value>file:///export/servers/Hadoop-2.6.0-cdh5.14.0/HadoopDatas/dfs/nn/snn/edits</value> </property> 故障恢复步骤 start-all.sh 4.浏览器页面正常访问 http://xxxx:50070/explorer.html#/【xxxx为namenode所在节点的ip】 发现一切正常,说明故障恢复成功

    58610发布于 2021-01-22
  • 来自专栏院长运维开发

    K8S内核故障

    测试 2-3分钟内,服务器会死掉,模拟测试连续触发OOM问题直到CPU耗尽。服务器自动重启 kernel: BUG: soft lockup - CPU#4 stuck for 22s! k8s已经无法管理node节点 ,node节点pod节点全挂了 ? 总结:暂时灰度部分服务器升级内核到4.1.19。后续补充 升级内核操作 ?

    2.2K20发布于 2020-06-16
  • IDC服务器故障排除思路

    2、备件准备硬盘、内存、CPU、主板、电源模块等备件二、常规检查在不拆机、不断电的情况下检查故障服务器1、检查开机状态下服务器指示灯是否正常2、检查有无明显异味、有无明显异响3、检查外观有无明显磕碰、变形等物理损伤 4、检查电源线、电源开关是否正常5、登录BMC系统,查看设备状态和日志,定位故障服务器部件6、在授权可以关机断电的情况下,重启服务器,查看BIOS信息和BMCSEL信息定位服务器故障部件7、如确定为可热插拔的设备造成 如果最小化可以正常开机,再逐步添加其他部件,通过重启服务器来判断是哪个部件故障。2、替换法当大概知道故障范围时,可以通过1-3个部件逐步替换来查找出具体故障,检查故障现象是否有变化,来确认具体故障点。 通过逐一替换服务器内的疑似故障部件,观察故障现象是否消失,以此定位故障部件。可以先替换比较容易出故障的部件,比如硬盘、内存等。 &TX的dropped和error是否为0,如果不为0,则存在问题4)更换网卡后依旧存在故障,则更换主板5)更换网卡后,如果故障消失,需要在OS下对网卡状态和网络传输状况进行复查8、BMC故障1)使用网线将笔记本电脑连接到

    2.3K10编辑于 2024-10-06
  • 来自专栏鹅厂网事

    服务器硬盘故障预测实践

    理论上服役时间越长的服务器发生故障的几率也将越大,从腾讯全网服务器的统计结果也表明服务器老龄化的加剧,故障概率会加速上升,特别是使用年份超过4年的设备故障率将出现陡升的情况,显而易见高故障率的老龄化设备将对现网业务造成巨大的影响 我们的服务器使用年限超过5年后,硬盘故障率都是非常高。 ? 于是乎,想快速有效的降低服务器故障的影响,核心就在于降低硬盘故障的影响。 或许这些服务器配置信息能给出一些统计结果,我们想要的是即将故障的硬盘,而不是这些差异性不大的各个集合的整体故障率。 为了支持我们提供了运营模型设置,主要包括服务器类型,上架年限,服务器健康度,业务模块,预测比,坏块比,性能参数等,系统会根据这个设置表,对满足其中任意一条规则的预测故障盘,自动发起故障流程。 6 总体框架 结合上面几点,基本上就得到了我们的系统总体框架,如图8所示。这里提到了SMART阈值检查可以作为一种简单的判断过程,它会将SMART的核心项远远超过正常值的情况直接判断为预故障

    14.9K90发布于 2018-02-06
  • 来自专栏Tensorbytes

    k8s故障问题收集帖

    ] Error adding local-path-storage_local-path-provisioner-ccbdd96dc-cbthj/ 0d2b1cd6de25ac114e2075f70f8ac25ef72b299048e728038086f3e7324f400a failed: rpc error: code = Unknown desc = failed to set up sandbox container “0d2b1cd6de25ac114e2075f70f8ac25ef72b299048e728038086f3e7324f400a

    2.4K20发布于 2020-02-11
  • 来自专栏希里安

    k8s故障排查常用方法

    -- SRETALK 9月14日 k8s更新了1.28.2版本,这更新速度杠杠的,你们还在用什么版本,停留在1.18-1.20的小伙伴举个手 --k8s k8s故障排查常用方式 在Kubernetes中排查故障是一个常见但有时复杂的任务 以下是常用的方式和方法,可以帮排查Kubernetes中的故障: 查看Pod状态和事件: 使用 kubectl get pods 命令来获取Pod的状态。 升级和维护: 确保Kubernetes集群和应用程序组件处于最新版本,因为某些故障可能已在较新的版本中修复。 在排查故障时,重要的是有系统地方法来分析问题,从Pod级别到节点级别,甚至到集群级别。同时,建议使用自动化工具来监视和报警,在故障发生时快速采取措施,以减少影响。

    65940编辑于 2023-10-30
  • 来自专栏landv

    故障排除和本地开发服务器

    故障排除 以下是一些常见的安装问题,以及建议的解决方法。 仅加载默认页面 如果你发现无论你在URL中放入什么内容,只会加载默认页面,可能是你的服务器不支持提供搜索引擎友好URL所需的REQUEST_URI变量。 本地开发服务器 PHP 提供了一个内置的可以在本地使用进行开发的 Web 服务器,免去了安装如 MAMP,XAMPP 等独立 Web 服务器的需要。 如果你在你的开发机器上安装了 PHP,你可以使用 serve 指令来启动 PHP 的内置服务器,完全安装并用于运行你的 CodeIgniter 应用程序。 :8000 这将启动服务器,并且你可以在浏览器中访问 http://localhost:8000 来查看你的应用程序。

    4.9K10发布于 2020-03-04
  • 来自专栏IT运维技术圈

    经典故障分析报告之-内核参数导致k8s节点故障

    运行环境信息:Kubernetes + docker,应用程序:Java 问题描述 1、首先从 Kubernetes 事件中心告警信息如下,该告警集群常规告警事件(其实从下面这些常规告警信息是无法判断是什么故障问题 14:22:06 PROD-BE-K8S-WN8 kubelet[3124]: runtime.startTemplateThread() Dec 22 14:22:06 PROD-BE-K8S-WN8 (*mTreap).end+78> 0000000000000000 二、故障分析 根据以上的故障问题初步分析,第一反应是 ulimi -u 值太小,已经被 hit(触及到,突破该参数的上限),于是查看各用户的 * soft nproc 65536 root soft nproc unlimited 查看节点运行的进程: 从监控信息可以看到在故障最高使用 分析过程 1、从以上监控信息分析,故障时间区间,系统运行的线程略高 31616,但是该值却没有超过当前用户的 ulimit -u 的值,初步排除该线索。

    1.5K40编辑于 2023-02-02
  • 来自专栏开源部署

    Linux服务器故障排查基本方案

    服务器架构 服务器系统为Centos7 首先需要知晓系统的对外的架构 一般架构: 1.域名--->云服务器(ECS) 2.域名--->CDN--->云服务器(OSS) 3.域名--->CDN--- >云服务器ECS+数据库RDS+缓存Redis 4.域名--->CDN--->负载均衡--->云服务器ECS+数据库RDS(主从)+缓存Redis 5.域名--->CDN-->WAF防火墙--->负载均衡 ECS服务器负载是否正常、cpu、内存负载是否过高,硬盘使用率是否达到100%等 缓存服务器 redis服务器负载是否正常、内存使用率如何 数据库服务器 数据库连接数是否正常 列出当前用户的所有连接信息 -e9717edb-39a8-410c-88e2-d8f1b3b2906f.png? 61.37.80.0/24 -j DROP #屏蔽单个IP的命令是 deny 123.45.6.7 #封整个段即从123.0.0.1到123.255.255.254的命令 deny 123.0.0.0/8

    1.1K10编辑于 2022-05-27
  • 来自专栏小网管的运维之路

    查看服务器性能及快速故障定位

    查看服务器性能及快速故障定位 适应环境 - Linux 连通性 curl ="[04/Apr/2017:12:25:00" && $4 <="[04/Apr/2017:12:26:00"' blog.log #过滤第四列的项,输出大于等于25分,小于等于26分的访问日志 故障定位 -w dst.pcap #过滤出端口为22, 且含有 FIN 标记的数据包 tcpdump -i eth0 -s 0 -l -w out.log port 3306 | strings #在数据库服务器是通过

    1.9K20发布于 2019-05-28
  • 来自专栏运维开发故事

    k8s故障检测与自愈(一)

    组件故障 组件故障可以认为是节点故障的子类,只是故障来源是K8S基础组件的一部分。 DNS故障:6个DNS Pod中的2个出现无法解析外部DNS名称的情况。后果是大量线上业务因域名解析。 CNI故障:少数几个节点的容器网络和外部断开,节点访问自身的Pod IP没有问题,但是其它节点无法访问故障节点的Pod IP。 可以参考: 使用KubeNurse进行集群网络监控 乔克,公众号:运维开发故事使用KubeNurse进行集群网络监控 节点故障 硬件错误: CPU/Memory/磁盘故障 kernel问题: kernel 在裸金属K8S集群中,由于缺乏基础设施的支撑,自动扩充节点可能无法实现,只能通过更加精细的自动化运维,治愈节点的异常状态。 ? 尝试重启容器运行时 告警,要求运维人员介入 部署NPD实践你需要有一个k8s集群,必须有1个以上的worker节点。

    3.6K20发布于 2021-04-26
  • 来自专栏DotNet 致知

    15_处理服务器故障

    http://mpvideo.qpic.cn/0b78deaagaaaieaoadgjvjpvagodammqaaya.f10002.mp4?dis_k=f6e1009af0e7395ce663923

    1.2K30编辑于 2022-03-29
  • 来自专栏云计算与大数据

    k8s|一次故障排查

    Containerd作为一个gRPC的服务器,它会在接到docker daemon的远程请求之后,新建一个线程去处理这次请求。关于gRPC的细节,我们这里其实不用关注太多。

    3.2K30发布于 2019-06-11
  • 来自专栏技术杂记

    日志服务器8

    客户端操作测试 [root@h202 ~]# ls anaconda-ks.cfg Downloads ip.log Music plot Templates vmware-tools-distrib Desktop install.log logger packages Public Videos zk Documents

    1.1K20发布于 2021-10-20
  • 来自专栏用户9757876的专栏

    服务器故障、网络故障能提早知道?教你一招搞定

    在多年的IT外包服务过程中发现,一旦客户的网络或者服务器出现故障,如果我们能比客户先知道,并且迅速响应、解决问题,客户的满意度就会非常高。 那么,怎样才能做到服务器故障早知道呢? 在企业的IT基础设施中,服务器的健康状况是至关重要的,特别是Windows服务器,因为它们通常执行关键的业务应用程序。 3.安装过程中,按照提示设置合适的Hostname,填写Zabbix服务器的地址,注意,我习惯用域名来作为服务器地址,这样,当服务器IP变化的时候,就不用修改很多个客户端了,是个省事的好习惯。 随着你对Zabbix功能的深入了解,你将能够更有效地管理和维护你的服务器。 比如,Zabbix可以直接监测服务器的硬件性能,就算是服务器重启一下,也会收到邮件。 虽然不一定知道重启的原因,但是如果这个时候,客户跟你说断网了,你就能回答:“路由器重启中,估计3分钟内恢复网络,如果还是有故障,我们会第一时间处理。” 是不是很酷?想来客户一定会很满意的!

    58410编辑于 2024-05-08
  • 来自专栏互联网-小阿宇

    公司测试环境k8s节点故障解决

    测试环境 ip地址 信息 192.168.1.215 k8s主节点 、etcd 192.168.1.216 k8s从节点、etcd 192.168.1.139 kvm 报错: 从215服务器上面可以看到使用 k8s的命令就是没反应 要不就是回复的是时间超时! 由于可能服务器ssh登录服务器可能会慢 尝试登录139服务器,215和216服务器都是从129虚出来的直接登录用过kvm的命令进行执行重启服务器 那么到了139服务器之后先看一下KVM虚拟机都有哪些 - hywater shut off - k8s-m1 shut off 我们将主节点的和从节点的服务器进行重启 virsh reboot k8s_node01 ##进行重启 virsh reboot k8s-node02 等待几分钟重启一下 然后我们分别登录到215和216服务器进行查看一下 然后

    69840编辑于 2022-11-21
  • 来自专栏希里安

    小年快乐,聊聊k8s常见故障

    k8s常见故障 Kubernetes(K8s)是一个开源的容器编排平台,用于自动化容器的部署、扩展和管理。尽管它是一个健壮的系统,但在使用中不可避免的会遇到一些故障。 控制平面故障: API服务器宕机或响应缓慢。 etcd集群问题,如数据不一致、性能问题或全面故障。 调度器、控制器管理器的故障。 节点级故障: 节点宕机。 kubelet故障。 容器运行时故障。 只要冷静沉着应对,总结一套属于自己的应对方法,掌握常见问题的解决策略,就可以保证k8s集群健康稳定运行,也能避免背运维黑锅。 1. 应用级故障 案例:Pod启动失败或反复重启 症状:Pods持续处于CrashLoopBackOff状态。 当然还有很多意外的故障,不能一一举例,但每个Kubernetes故障都是一个学习机会,深入了解背后的原理能够帮助我们更好地管理和维护集群。记得,最佳的学习方法是实践和分享。

    1.5K11编辑于 2024-02-22
  • 来自专栏山河已无恙

    K8s:Kubernetes 故障排除方法论

    更广泛地说,Kubernetes 故障排除还包括有效的持续故障管理,并采取措施防止 Kubernetes 组件出现问题。 这通常涉及: 查看最近对受影响的集群、Pod 或节点所做的更改,以查看导致故障的原因。 分析运行故障组件的虚拟机或裸机的 YAML 配置、GitHub 存储库和日志。 比较行为相同的类似组件,并分析组件之间的依赖关系,以查看它们是否与故障相关。 Gremlin 是一个混沌工程平台,它提供了多种故障注入工具,包括网络故障、主机故障、应用程序故障等,可以帮助用户测试系统的弹性和可靠性。 ChaosIQ 是一个混沌工程平台,它提供了多种故障注入工具,包括网络故障、主机故障、应用程序故障等,可以帮助用户测试系统的弹性和可靠性。

    63221编辑于 2023-08-21
  • 来自专栏鹅厂网事

    【鹅厂网事】服务器硬盘故障预测实践

    理论上服役时间越长的服务器发生故障的几率也将越大,从腾讯全网服务器的统计结果也表明服务器老龄化的加剧,故障概率会加速上升,特别是使用年份超过4年的设备故障率将出现陡升的情况,显而易见高故障率的老龄化设备将对现网业务造成巨大的影响 我们的服务器使用年限超过5年后,硬盘故障率都是非常高。 于是乎,想快速有效的降低服务器故障的影响,核心就在于降低硬盘故障的影响。 或许这些服务器配置信息能给出一些统计结果,我们想要的是即将故障的硬盘,而不是这些差异性不大的各个集合的整体故障率。 为了支持我们提供了运营模型设置,主要包括服务器类型,上架年限,服务器健康度,业务模块,预测比,坏块比,性能参数等,系统会根据这个设置表,对满足其中任意一条规则的预测故障盘,自动发起故障流程。 6 总体框架 结合上面几点,基本上就得到了我们的系统总体框架,如图8所示。这里提到了SMART阈值检查可以作为一种简单的判断过程,它会将SMART的核心项远远超过正常值的情况直接判断为预故障

    2.3K10编辑于 2023-03-07
领券