首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏用户9757876的专栏

    服务器故障邮件报警

    说到服务器硬件监测,用得最多的自然是Zabbix和prometheus,可是对于一般用户来说,部署要求比较高,而且也没有必要。 只是监测服务器硬件故障,并且发生问题的时候,以邮件形式告警,那么服务器自带的功能就足以。 比如戴尔服务器的idrac,配置硬件故障的邮件告警就非常简单。 如上图所示,首先填写邮件发送服务器的地址,其次就是填写发件人邮件地址,然后就是SMTP端口号,采用SSL协议的话,端口号就填写465;最后填写用户名和密码,就是发件人的邮件账号和密码。 收件人邮件地址,当然也需要填写,不然故障报给谁呢?然后可以“发送”测试邮件,一般都是秒收,如果没收到,就检查SMTP配置。 我比较关注系统运行状况和存储,尤其是存储,重要的数据都在硬盘里面呢,其他硬件故障,相对来说,没那么重要,电源坏了,可以换,内存坏个一两条,也无伤大雅。硬盘要是坏了,那就损失大了。

    1.1K30编辑于 2023-09-06
  • IDC服务器故障排除思路

    2、备件准备硬盘、内存、CPU、主板、电源模块等备件二、常规检查在不拆机、不断电的情况下检查故障服务器1、检查开机状态下服务器指示灯是否正常2、检查有无明显异味、有无明显异响3、检查外观有无明显磕碰、变形等物理损伤 4、检查电源线、电源开关是否正常5、登录BMC系统,查看设备状态和日志,定位故障服务器部件6、在授权可以关机断电的情况下,重启服务器,查看BIOS信息和BMCSEL信息定位服务器故障部件7、如确定为可热插拔的设备造成 通过逐一替换服务器内的疑似故障部件,观察故障现象是否消失,以此定位故障部件。可以先替换比较容易出故障的部件,比如硬盘、内存等。 lsscsi(PCIe硬盘需要使用命令lsblk),确认是否可以识别到硬盘2)RAID阵列的硬盘故障,需要提前备份好数据,尽量不要使用交叉测试来排除故障,以免造成数据丢失5、电源故障电源故障主要原因为: &TX的dropped和error是否为0,如果不为0,则存在问题4)更换网卡后依旧存在故障,则更换主板5)更换网卡后,如果故障消失,需要在OS下对网卡状态和网络传输状况进行复查8、BMC故障1)使用网线将笔记本电脑连接到

    2.3K10编辑于 2024-10-06
  • 来自专栏鹅厂网事

    服务器硬盘故障预测实践

    在这些故障中“贡献”最多的当属硬盘了(如图1所示),它在服务器部件故障中占比高达70%以上,这也归结于它的体量最大,并且生命周期比较短(如表1所示),硬盘的生命周期一般只有3到5年。 我们的服务器使用年限超过5年后,硬盘故障率都是非常高。 ? 于是乎,想快速有效的降低服务器故障的影响,核心就在于降低硬盘故障的影响。 虽然可以从统计学上获取一些粗略统计:服务器及关键部件生命周期上限一般是5年,行业内针对大于5年的老龄设备通常采取的是直接退役的方案,但是并不适用于体量巨大的我们,考虑到成本、业务迁移等问题,这种方案还是太过任性了些 5 运营模型 有了预测模型,可以给出预故障盘,有了统计模型,可以给出预故障盘的预测比。但是问题来了,对于运营同事来说,不同的服务器可能优先级又会有所差异,并且这个优先级还是随时可调的。 成功预测的硬盘故障数量,粗略估算已覆盖SATA硬盘故障数的50%左右,进而促使5年以上服务器对业务影响的硬件整体故障率也下降了0.5%。

    14.9K90发布于 2018-02-06
  • NVMe 盘故障排查 5 步速查

    但 252 块盘全部 DISK_OK,说明 Pangu 还没把 nvme9n1 标记为故障。Abnormal Chunks 只有 2 个且 副本数并未归零 → 全局数据安全,今晚可以睡个好觉。 5. 检查文件系统是否只读或掉盘lsblk | grep nvme9n1mount | grep nvme9n1如果盘已掉线(lsblk 看不到),或文件系统变只读,说明盘已不可恢复。

    39110编辑于 2025-11-21
  • 来自专栏运维记录

    IBM x3650 M5服务器更换故障硬盘导入原硬盘raid

    背景: ​ 一台ibm x3650 M5服务器raid故障,从其他服务器上拆一块好的卡过来安装上,这个时候因为raid卡和磁盘上都有原机器上的raid信息,步骤如下: 导入步骤 更换从其他机器上拆过来的 raid卡之后开机会提示如下,这个时候安键盘【Enter】然后输入【C】,然后继续按【Enter】 接下来会显示下面的内容,按【Enter】输入【Y】继续按【Enter】 最后显示下图按【Y】保存,然后重启服务器就好了 到此更换故障raid卡完成

    2.1K10编辑于 2024-11-03
  • 来自专栏landv

    故障排除和本地开发服务器

    故障排除 以下是一些常见的安装问题,以及建议的解决方法。 仅加载默认页面 如果你发现无论你在URL中放入什么内容,只会加载默认页面,可能是你的服务器不支持提供搜索引擎友好URL所需的REQUEST_URI变量。 本地开发服务器 PHP 提供了一个内置的可以在本地使用进行开发的 Web 服务器,免去了安装如 MAMP,XAMPP 等独立 Web 服务器的需要。 如果你在你的开发机器上安装了 PHP,你可以使用 serve 指令来启动 PHP 的内置服务器,完全安装并用于运行你的 CodeIgniter 应用程序。 :8000 这将启动服务器,并且你可以在浏览器中访问 http://localhost:8000 来查看你的应用程序。

    4.9K10发布于 2020-03-04
  • 来自专栏开源部署

    Linux服务器故障排查基本方案

    服务器架构 服务器系统为Centos7 首先需要知晓系统的对外的架构 一般架构: 1.域名--->云服务器(ECS) 2.域名--->CDN--->云服务器(OSS) 3.域名--->CDN--- >云服务器ECS+数据库RDS+缓存Redis 4.域名--->CDN--->负载均衡--->云服务器ECS+数据库RDS(主从)+缓存Redis 5.域名--->CDN-->WAF防火墙--->负载均衡 ECS服务器负载是否正常、cpu、内存负载是否过高,硬盘使用率是否达到100%等 缓存服务器 redis服务器负载是否正常、内存使用率如何 数据库服务器 数据库连接数是否正常 列出当前用户的所有连接信息 3.29 33.74 1.33 0.49 如果发现当前磁盘忙碌,则查看是哪个 PID 在忙碌: 安装 yum install -y iotop # iotop -o -P -k -d 5 访问最多真实用户的IP cat www.XXXX.com-access.log |awk '{print $5}'| awk -F":" '{print $NF}' |sort|uniq -c|sort

    1.1K10编辑于 2022-05-27
  • 来自专栏飞牛Fnos系统合集

    飞牛 NAS 服务器应急脚本合集:5 个实用脚本快速解决系统故障

    在折腾NAS、服务器或Linux系统时,更新失败、依赖损坏、Docker崩溃、GPU兼容异常等问题总能让人头疼。 今天整理了飞牛共建团大佬们分享的5个高频应急脚本,覆盖依赖修复、硬件检测、Docker重置等核心场景,上手简单还能大幅减少排查时间,新手也能轻松应对突发状况。1. 重新开启SWAP脚本 作者:七月七夕专为服务器搭建的飞牛系统设计,支持Debian系所有系统,可灵活管理SWAP分区,解决内存不足导致的系统卡顿、服务崩溃问题。 需要调整SWAP分区大小 执行命令:curl http://qdnas.icu/swap_manage.sh | bash操作选项:禁用现有SWAP分区自定义设置SWAP分区大小一键启用SWAP功能(适配服务器长期运行需求 )5.

    2.8K10编辑于 2025-11-12
  • 来自专栏小网管的运维之路

    查看服务器性能及快速故障定位

    查看服务器性能及快速故障定位 适应环境 - Linux 连通性 curl -n ss -ant | awk '{++s[$1]} END {for(k in s) print k,s[k]}' #查看当前TCP连接状态;ss更快 ss -an|awk '{print $5} uniq -c计数显示 netstat -n|grep TIME_WAIT|awk '{print $5}'|awk -F: '{print $1}' |sort|uniq -c|sort -rn| ="[04/Apr/2017:12:25:00" && $4 <="[04/Apr/2017:12:26:00"' blog.log #过滤第四列的项,输出大于等于25分,小于等于26分的访问日志 故障定位 -w dst.pcap #过滤出端口为22, 且含有 FIN 标记的数据包 tcpdump -i eth0 -s 0 -l -w out.log port 3306 | strings #在数据库服务器是通过

    1.9K20发布于 2019-05-28
  • 来自专栏DotNet 致知

    15_处理服务器故障

    http://mpvideo.qpic.cn/0b78deaagaaaieaoadgjvjpvagodammqaaya.f10002.mp4?dis_k=f6e1009af0e7395ce663923

    1.2K30编辑于 2022-03-29
  • 来自专栏用户9757876的专栏

    服务器故障、网络故障能提早知道?教你一招搞定

    在多年的IT外包服务过程中发现,一旦客户的网络或者服务器出现故障,如果我们能比客户先知道,并且迅速响应、解决问题,客户的满意度就会非常高。 那么,怎样才能做到服务器故障早知道呢? 在企业的IT基础设施中,服务器的健康状况是至关重要的,特别是Windows服务器,因为它们通常执行关键的业务应用程序。 3.安装过程中,按照提示设置合适的Hostname,填写Zabbix服务器的地址,注意,我习惯用域名来作为服务器地址,这样,当服务器IP变化的时候,就不用修改很多个客户端了,是个省事的好习惯。 随着你对Zabbix功能的深入了解,你将能够更有效地管理和维护你的服务器。 比如,Zabbix可以直接监测服务器的硬件性能,就算是服务器重启一下,也会收到邮件。 虽然不一定知道重启的原因,但是如果这个时候,客户跟你说断网了,你就能回答:“路由器重启中,估计3分钟内恢复网络,如果还是有故障,我们会第一时间处理。” 是不是很酷?想来客户一定会很满意的!

    58410编辑于 2024-05-08
  • 来自专栏鹅厂网事

    【鹅厂网事】服务器硬盘故障预测实践

    在这些故障中“贡献”最多的当属硬盘了(如图1所示),它在服务器部件故障中占比高达70%以上,这也归结于它的体量最大,并且生命周期比较短(如表1所示),硬盘的生命周期一般只有3到5年。 我们的服务器使用年限超过5年后,硬盘故障率都是非常高。 于是乎,想快速有效的降低服务器故障的影响,核心就在于降低硬盘故障的影响。 虽然可以从统计学上获取一些粗略统计:服务器及关键部件生命周期上限一般是5年,行业内针对大于5年的老龄设备通常采取的是直接退役的方案,但是并不适用于体量巨大的我们,考虑到成本、业务迁移等问题,这种方案还是太过任性了些 5 运营模型 有了预测模型,可以给出预故障盘,有了统计模型,可以给出预故障盘的预测比。但是问题来了,对于运营同事来说,不同的服务器可能优先级又会有所差异,并且这个优先级还是随时可调的。 成功预测的硬盘故障数量,粗略估算已覆盖SATA硬盘故障数的50%左右,进而促使5年以上服务器对业务影响的硬件整体故障率也下降了0.5%。

    2.3K10编辑于 2023-03-07
  • 来自专栏技术杂记

    日志服务器5

    | | mysql | | performance_schema | | test | +--------------------+ 5

    98020发布于 2021-10-19
  • 来自专栏网络安全与可视化

    如何识别服务器连接的零星故障

    通过使用Allegro网络万用表,你可以在几分钟内缩小故障的原因的范围,然后采取措施加以纠正。 首先通过独立于浏览器的web界面搜索用户。 转到概览页面,检查有问题的服务器连接。 这些 “无效连接 “在 “新的TCP连接 “图中显示为蓝色。默认情况下,显示的是当前的服务器连接。如果你放大,时间间隔会扩展到显示过去几个小时。 在某些时间发生的特别多的有问题的服务器连接会立即显现出来。 准确定位有问题的服务器连接 为了更仔细地检查潜在的问题服务器连接,点击一个峰值将时间范围限制在这个时间间隔内。 切换到 “peers “标签,现在你可以看到在有关的时间间隔内联系的服务器。再按 “无效连接 “进行排序,可以立即看到错误最多的服务器(见截图)。 因此,尽管用户信息模糊,你仍然可以在几秒钟内确定受影响的服务器,并使用隔离的网络流量详细检查故障

    94600发布于 2021-06-09
  • 来自专栏计算机主机服务器

    如何避免美国ASP主机服务器崩溃和故障

    ASP主机服务器是一种用于托管网站的服务器,其特点是可靠性高。但是,即使是最可靠的服务器也会遭受故障或崩溃。在本文中,我们将探讨如何避免美国ASP主机服务器故障和崩溃。   一、定期备份数据  定期备份数据可以帮助您在服务器出现故障或崩溃时恢复数据。备份可以存储在本地磁盘或云存储中。您可以使用备份恢复数据,以便在服务器崩溃后能够快速恢复网站。 图片  五、监控服务器  监控服务器可以帮助您及时发现服务器故障和崩溃,并采取必要的措施。您可以使用监控工具来检测服务器性能、网络流量和磁盘空间等方面的问题。 七、使用可靠的硬件  使用可靠的硬件可以帮助您避免服务器故障和崩溃。请选择品牌知名度高的服务器硬件,并确保其质量和性能都是可靠的。   请确保您的服务器和网站都有足够的安全措施来保护您的数据和业务。请确保仅授权的人员可以访问服务器和网站。  在本文中,我们探讨了如何避免美国ASP主机服务器故障和崩溃的九个步骤。

    3.7K20编辑于 2023-04-23
  • 来自专栏不温卜火

    Flume快速入门系列(5) | 负载均衡和故障转移

    此篇博文讲的是Flume的负载均衡和故障转移。 单Source、Channel多Sink(负载均衡)如下图所示。 ? 1. 100 # Bind the source and sink to the channel a3.sources.r1.channels = c2 a3.sinks.k1.channel = c2 5.

    1.1K30发布于 2020-10-28
  • 来自专栏devops_k8s

    k8s集群5故障案例分析

    1 简介 最近看到了一份收集Kubernetes故障案例的资料,资料由ZalandoTech的高级首席工程师Henning Jacobs加以维护。 k8s.af上的案例由工程师和实施者编写,描述了许多糟糕的经历:比如导致高延迟的CPU限制、阻止自动扩展的IP上限、应用程序日志丢失、pod被终止、502 错误、部署缓慢和生产环境故障等。 PrometheusKube讲述了一个奇怪的故障案例——有一天,某个节点莫名其妙地停止发送日志。工作团队使用fluent-bit来发送日志,注意到Elasticsearch未满足某些请求。 5 负载均衡系统配置错误导致完全中断 生产环境中断、停运、甚至生产环境部分中断都会大大影响用户体验,并抑制业务增长。 原文链接:https://containerjournal.com/editorial-calendar/best-of-2021/how-not-to-use-kubernetes-5-failure-stories

    3.2K40编辑于 2022-03-14
  • 来自专栏jtti

    服务器租用中硬盘故障的常见表现

    硬盘故障可能表现为以下一些常见迹象:1. 异常噪音:硬盘传动异常会导致嘈杂的声音,如咔哒声、嘟嘟声或其他机械运动异常的声音。2. 异常振动:硬盘在正常情况下应该是比较安静的,异常的振动可能暗示着硬盘发生故障。3. 速度变慢:硬盘故障可能导致文件读取或写入速度变慢,整个系统运行速度变得明显缓慢。4. 5. 系统启动问题:操作系统无法正常启动,可能会显示启动错误信息或无法引导至操作系统。6. SMART报警:硬盘的自我监测、分析和报告技术(SMART)可能会显示故障预警,提醒硬盘问题。7. 若您注意到了上述表现中的一项或多项,建议立即备份重要数据,并尽快联系服务提供商或数据中心支持团队,以便诊断和解决硬盘故障问题。

    1.3K20编辑于 2023-11-10
  • 来自专栏工作专用1

    反思一次Exchange服务器运维故障

    公司Exchange邮件系统邮件流故障故障发现、故障处理和故障修复的过程记录和总结反思。帮助自己总结经验和吸取教训,同时也作为一次反面教材让其他运维或管理员吸取教训。 故障发现     昨天下午18点50左右结束团队内培训分享会后,收到同事的反馈,说他们几个人都无法收到外部邮件(Internet上的邮件),故障现象为:Exchange服务器内网收发邮件正常,外网发送正常 经过检查磁盘空间不足(已经低于5%,但尚有3GB可用空间,由于经验不足,没有判断出此问题可能造成的影响,加之内网邮件正常,因此没有优先处理,最后发现是此原因造成)。 其次应该检查服务器系统日志。 正常=1000 中级=2000 高级=4000]     提交队列 = 0 [普通] [一般=1000 中=2000 高=4000]     注:其实Linux中也有类似的保护机制,如oom,磁盘保留5% 此服务器是配置了Zabbix监控报警的,而且Zabbix已经监测到故障并发送报警,由于没有及时的处理才导致本次故障的发生。 就算是接盘也要痛改前非。

    3.1K30发布于 2019-03-20
  • 来自专栏生信菜鸟团

    玩转服务器5服务器资源查看

    对于使用我们共享服务器(2024的共享服务器交个朋友福利价仍然是800)的用户,由于大家拿到的服务器账号是共享的,所以说你并不能像使用自己服务器那样自由自在,在提交任务时要留意一下服务器的整体使用情况, 那么这时候就要掌握一些服务器资源查看的技巧。比如top、htop命令。 言简意赅版: utop utop 是我们服务器管理员自己写的一个用户资源统计的小脚本。 例如,`top -d 5` 每5秒更新一次。 # -n <次数>:指定 `top` 输出的更新次数。例如,`top -n 10` 会更新10次后退出。 【日常使用基本用不到】 1:显示各个核心的使用情况 top命令虽然输出了很多参数,不过真正的服务器负载情况我们要综合其他参数一起看。 Load Average:系统负载: 106.11, 92.15, 89.60 分别代表最近 1 分钟、5 分钟和 15 分钟的平均负载。

    1.2K10编辑于 2024-11-27
领券