首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏运维之路

    事中故障处理(4故障定位

    故障恢复指恢复业务连续性的应急操作,很多故障是在不断尝试验证解决恢复的动作,所以故障恢复环节与故障定位环节有一定的交叠,或在这两个环节之间不断试错的循环,即故障恢复操作可能和故障诊断是同时,也可能是诊断之后或诊断之前 1.已知预案下的恢复三把斧 在故障管理过程中,通常大部分故障有一些明确的故障恢复预案,比如基础设施、服务器、网络设备、网络线路,以及应用系统层中关于服务可用性等故障因素,以及基于历史故障经验积累的方案。 不可修复系统的平均寿命指系统发生失效前的平均工作时间或工作次数, 也称为系统在失效前的平均时间,比如基础设施层面的环控、服务器、存储、负载均衡设备、网络设备、专线等通常是不可修复系统,这类系统需要在初始阶段进行可靠性设计 4.恢复后信息传递 虽然从MTTR角度看,恢复通常以技术指标的恢复为判断条件,但是在实际的故障处置过程中,恢复结束的判断条件通常是验证与信息通报。 验证包括技术验证与业务验证。 结束 注:“3.4 事中处置”另外3个环节内容链接: 1.故障发现、故障响应 2.故障定位

    1.9K31发布于 2021-10-08
  • 来自专栏用户9757876的专栏

    服务器故障邮件报警

    说到服务器硬件监测,用得最多的自然是Zabbix和prometheus,可是对于一般用户来说,部署要求比较高,而且也没有必要。 只是监测服务器硬件故障,并且发生问题的时候,以邮件形式告警,那么服务器自带的功能就足以。 比如戴尔服务器的idrac,配置硬件故障的邮件告警就非常简单。 如上图所示,首先填写邮件发送服务器的地址,其次就是填写发件人邮件地址,然后就是SMTP端口号,采用SSL协议的话,端口号就填写465;最后填写用户名和密码,就是发件人的邮件账号和密码。 收件人邮件地址,当然也需要填写,不然故障报给谁呢?然后可以“发送”测试邮件,一般都是秒收,如果没收到,就检查SMTP配置。 我比较关注系统运行状况和存储,尤其是存储,重要的数据都在硬盘里面呢,其他硬件故障,相对来说,没那么重要,电源坏了,可以换,内存坏个一两条,也无伤大雅。硬盘要是坏了,那就损失大了。

    1.1K30编辑于 2023-09-06
  • IDC服务器故障排除思路

    2、备件准备硬盘、内存、CPU、主板、电源模块等备件二、常规检查在不拆机、不断电的情况下检查故障服务器1、检查开机状态下服务器指示灯是否正常2、检查有无明显异味、有无明显异响3、检查外观有无明显磕碰、变形等物理损伤 4、检查电源线、电源开关是否正常5、登录BMC系统,查看设备状态和日志,定位故障服务器部件6、在授权可以关机断电的情况下,重启服务器,查看BIOS信息和BMCSEL信息定位服务器故障部件7、如确定为可热插拔的设备造成 通过逐一替换服务器内的疑似故障部件,观察故障现象是否消失,以此定位故障部件。可以先替换比较容易出故障的部件,比如硬盘、内存等。 4、硬盘故障硬盘故障主要原因为:硬盘松动、硬盘接触不良、插接件不良以及松动(硬盘背板、RAID卡、SAS\SATA\PCIe线)1)查看硬盘状态指示灯是否正常,如果为红灯状态,则确认为硬盘故障,需要更换此硬盘 &TX的dropped和error是否为0,如果不为0,则存在问题4)更换网卡后依旧存在故障,则更换主板5)更换网卡后,如果故障消失,需要在OS下对网卡状态和网络传输状况进行复查8、BMC故障1)使用网线将笔记本电脑连接到

    2.3K10编辑于 2024-10-06
  • 来自专栏鹅厂网事

    服务器硬盘故障预测实践

    理论上服役时间越长的服务器发生故障的几率也将越大,从腾讯全网服务器的统计结果也表明服务器老龄化的加剧,故障概率会加速上升,特别是使用年份超过4年的设备故障率将出现陡升的情况,显而易见高故障率的老龄化设备将对现网业务造成巨大的影响 我们的服务器使用年限超过5年后,硬盘故障率都是非常高。 ? 于是乎,想快速有效的降低服务器故障的影响,核心就在于降低硬盘故障的影响。 或许这些服务器配置信息能给出一些统计结果,我们想要的是即将故障的硬盘,而不是这些差异性不大的各个集合的整体故障率。 4 统计模型 上面说的SVM是个二分类器,也就是说在它的世界里非黑即白,无所谓中间状态,那问题来了,这个耿直boy给出的结果这么多,就算判刑也要有个轻重之分吧,我们怎么判断哪些是“更坏的”可以直接判死刑 为了支持我们提供了运营模型设置,主要包括服务器类型,上架年限,服务器健康度,业务模块,预测比,坏块比,性能参数等,系统会根据这个设置表,对满足其中任意一条规则的预测故障盘,自动发起故障流程。

    14.9K90发布于 2018-02-06
  • 来自专栏landv

    故障排除和本地开发服务器

    故障排除 以下是一些常见的安装问题,以及建议的解决方法。 仅加载默认页面 如果你发现无论你在URL中放入什么内容,只会加载默认页面,可能是你的服务器不支持提供搜索引擎友好URL所需的REQUEST_URI变量。 本地开发服务器 PHP 提供了一个内置的可以在本地使用进行开发的 Web 服务器,免去了安装如 MAMP,XAMPP 等独立 Web 服务器的需要。 如果你在你的开发机器上安装了 PHP,你可以使用 serve 指令来启动 PHP 的内置服务器,完全安装并用于运行你的 CodeIgniter 应用程序。 :8000 这将启动服务器,并且你可以在浏览器中访问 http://localhost:8000 来查看你的应用程序。

    4.9K10发布于 2020-03-04
  • 来自专栏Owen's World

    服务器4

    解决方案 1.因为是阿里云服务器,先在阿里云后台禁止公网访问3306端口。

    50220编辑于 2021-12-07
  • 来自专栏开源部署

    Linux服务器故障排查基本方案

    服务器架构 服务器系统为Centos7 首先需要知晓系统的对外的架构 一般架构: 1.域名--->云服务器(ECS) 2.域名--->CDN--->云服务器(OSS) 3.域名--->CDN--- >云服务器ECS+数据库RDS+缓存Redis 4.域名--->CDN--->负载均衡--->云服务器ECS+数据库RDS(主从)+缓存Redis 5.域名--->CDN-->WAF防火墙--->负载均衡 查找对应的域名和设备 Zabbix监控发钉钉告警 [1614243525084-f79b25e3-c800-40c4-bb82-6945b2340386.png? 脚本邮件告警 [1614243666883-c830f798-fbbd-413f-bdd4-d26a9333c56f.png? ,是否流量异常 应用层服务器 ECS服务器负载是否正常、cpu、内存负载是否过高,硬盘使用率是否达到100%等 缓存服务器 redis服务器负载是否正常、内存使用率如何 数据库服务器 数据库连接数是否正常

    1.1K10编辑于 2022-05-27
  • 来自专栏小网管的运维之路

    查看服务器性能及快速故障定位

    查看服务器性能及快速故障定位 适应环境 - Linux 连通性 curl 1000行域名出现次数 web访问统计 watch 'netstat -an | egrep -w "80|443"|grep ESTABLISHED |wc -l' # 服务并发连接 awk '$4 >="[04/Apr/2017:12:25:00" && $4 <="[04/Apr/2017:12:26:00"' blog.log #过滤第四列的项,输出大于等于25分,小于等于26分的访问日志 故障定位 网络抓包 tcpdump -i eth0 host 43.225.180.226 tcp port 8888 -vv -c 3 -w result.pcap #-vv 屏幕显示 -c -w dst.pcap #过滤出端口为22, 且含有 FIN 标记的数据包 tcpdump -i eth0 -s 0 -l -w out.log port 3306 | strings #在数据库服务器是通过

    1.9K20发布于 2019-05-28
  • 来自专栏DotNet 致知

    15_处理服务器故障

    http://mpvideo.qpic.cn/0b78deaagaaaieaoadgjvjpvagodammqaaya.f10002.mp4?

    1.2K30编辑于 2022-03-29
  • 来自专栏大数据那些事

    keepalived(4)——演练故障出现时keepalived的状态

    keepalived的主要作用体现在处理单点故障,像前面我们设置的两台主机,就可以进行故障演练,现在的状态是master主机开启着keepalived: ? ?

    67020发布于 2020-11-11
  • 来自专栏用户9757876的专栏

    服务器故障、网络故障能提早知道?教你一招搞定

    在多年的IT外包服务过程中发现,一旦客户的网络或者服务器出现故障,如果我们能比客户先知道,并且迅速响应、解决问题,客户的满意度就会非常高。 那么,怎样才能做到服务器故障早知道呢? 4. 安装后,Windows Server会自动启动Zabbix Agent服务。 点击“Create host”(创建主机),输入Windows服务器的详细信息,包括主机名(与Agent配置中的Hostname相匹配)、IP地址等。 4. 随着你对Zabbix功能的深入了解,你将能够更有效地管理和维护你的服务器。 比如,Zabbix可以直接监测服务器的硬件性能,就算是服务器重启一下,也会收到邮件。 虽然不一定知道重启的原因,但是如果这个时候,客户跟你说断网了,你就能回答:“路由器重启中,估计3分钟内恢复网络,如果还是有故障,我们会第一时间处理。” 是不是很酷?想来客户一定会很满意的!

    58410编辑于 2024-05-08
  • 来自专栏技术杂记

    日志服务器4

    因为数据最后是写到 mysql 里,所以要安装 rsyslog 操作 mysql 的模块

    83140发布于 2021-10-19
  • 来自专栏鹅厂网事

    【鹅厂网事】服务器硬盘故障预测实践

    理论上服役时间越长的服务器发生故障的几率也将越大,从腾讯全网服务器的统计结果也表明服务器老龄化的加剧,故障概率会加速上升,特别是使用年份超过4年的设备故障率将出现陡升的情况,显而易见高故障率的老龄化设备将对现网业务造成巨大的影响 我们的服务器使用年限超过5年后,硬盘故障率都是非常高。 于是乎,想快速有效的降低服务器故障的影响,核心就在于降低硬盘故障的影响。 或许这些服务器配置信息能给出一些统计结果,我们想要的是即将故障的硬盘,而不是这些差异性不大的各个集合的整体故障率。 4 统计模型 上面说的SVM是个二分类器,也就是说在它的世界里非黑即白,无所谓中间状态,那问题来了,这个耿直boy给出的结果这么多,就算判刑也要有个轻重之分吧,我们怎么判断哪些是“更坏的”可以直接判死刑 为了支持我们提供了运营模型设置,主要包括服务器类型,上架年限,服务器健康度,业务模块,预测比,坏块比,性能参数等,系统会根据这个设置表,对满足其中任意一条规则的预测故障盘,自动发起故障流程。

    2.3K10编辑于 2023-03-07
  • 来自专栏菩提树下的杨过

    ZooKeeper 笔记(4) 实战应用之【消除单点故障

    关键节点的单点故障(Single Point of Failure)在大型的架构中,往往是致命的。 其它应用需要访问1中的核心服务器里,可以事先约定好,从ZK的这些临时节点中,挑选一个序号最小的节点,做为主服务器(即master) 3. 当master宕掉时,超过一定的时间阈值,临时节点将由ZK自动删除,这样原来序列最小的节点也就没了,客户端应用按2中的约定找最小节点的服务器时,自动会找到原来次最小的节点,继续充为master(老大挂了 ,老二顶上),即实现了故障转换。 上面是类图,CoreServer类对应核心服务器,ClientServer类对应客户端应用服务器,SPOFTest为单元测试类 CoreServer代码: package yjmyzz.test; import

    1.4K90发布于 2018-01-19
  • 来自专栏数通

    IPv4IPv6 双栈网络 IPv4 故障闭环排查指南

    一、 现象确认(终端侧必做四步) 在故障终端上完成以下操作,记录完整结果,为后续排障提供依据: 获取地址信息 IPv4 维度:检查是否获取到合法 IP 地址、子网掩码、默认网关、DNS 服务器地址;排查是否出现 IPv6 维度:检查是否通过 SLAAC/DHCPv6 获取到全球单播地址、默认路由(default route)、DNS 服务器地址。 验证操作 在 DHCPv4 服务器上执行命令,查看地址池统计信息:确认地址池是否启用、剩余地址数量、租约时长配置。 处置方向 检查 DHCPv4 服务器配置:确认地址池网段、子网掩码、网关、DNS 等 Option 参数配置正确;排查地址池是否耗尽。 检查 DHCP Relay 配置:若终端与 DHCP 服务器跨网段,确认 Relay 代理的接口 VLAN 绑定正确、指向的 DHCP 服务器地址无误。

    43610编辑于 2026-01-13
  • 来自专栏网络安全与可视化

    如何识别服务器连接的零星故障

    通过使用Allegro网络万用表,你可以在几分钟内缩小故障的原因的范围,然后采取措施加以纠正。 首先通过独立于浏览器的web界面搜索用户。 转到概览页面,检查有问题的服务器连接。 这些 “无效连接 “在 “新的TCP连接 “图中显示为蓝色。默认情况下,显示的是当前的服务器连接。如果你放大,时间间隔会扩展到显示过去几个小时。 在某些时间发生的特别多的有问题的服务器连接会立即显现出来。 准确定位有问题的服务器连接 为了更仔细地检查潜在的问题服务器连接,点击一个峰值将时间范围限制在这个时间间隔内。 切换到 “peers “标签,现在你可以看到在有关的时间间隔内联系的服务器。再按 “无效连接 “进行排序,可以立即看到错误最多的服务器(见截图)。 因此,尽管用户信息模糊,你仍然可以在几秒钟内确定受影响的服务器,并使用隔离的网络流量详细检查故障

    94600发布于 2021-06-09
  • 来自专栏计算机主机服务器

    如何避免美国ASP主机服务器崩溃和故障

    ASP主机服务器是一种用于托管网站的服务器,其特点是可靠性高。但是,即使是最可靠的服务器也会遭受故障或崩溃。在本文中,我们将探讨如何避免美国ASP主机服务器故障和崩溃。   一、定期备份数据  定期备份数据可以帮助您在服务器出现故障或崩溃时恢复数据。备份可以存储在本地磁盘或云存储中。您可以使用备份恢复数据,以便在服务器崩溃后能够快速恢复网站。 图片  五、监控服务器  监控服务器可以帮助您及时发现服务器故障和崩溃,并采取必要的措施。您可以使用监控工具来检测服务器性能、网络流量和磁盘空间等方面的问题。 七、使用可靠的硬件  使用可靠的硬件可以帮助您避免服务器故障和崩溃。请选择品牌知名度高的服务器硬件,并确保其质量和性能都是可靠的。   请确保您的服务器和网站都有足够的安全措施来保护您的数据和业务。请确保仅授权的人员可以访问服务器和网站。  在本文中,我们探讨了如何避免美国ASP主机服务器故障和崩溃的九个步骤。

    3.7K20编辑于 2023-04-23
  • 来自专栏jtti

    服务器租用中硬盘故障的常见表现

    硬盘故障可能表现为以下一些常见迹象:1. 异常噪音:硬盘传动异常会导致嘈杂的声音,如咔哒声、嘟嘟声或其他机械运动异常的声音。2. 异常振动:硬盘在正常情况下应该是比较安静的,异常的振动可能暗示着硬盘发生故障。3. 速度变慢:硬盘故障可能导致文件读取或写入速度变慢,整个系统运行速度变得明显缓慢。4. SMART报警:硬盘的自我监测、分析和报告技术(SMART)可能会显示故障预警,提醒硬盘问题。7. 应用程序错误:一些应用程序可能会显示奇怪的错误或无法正常运行,这可能是由于硬盘问题导致的。8. 若您注意到了上述表现中的一项或多项,建议立即备份重要数据,并尽快联系服务提供商或数据中心支持团队,以便诊断和解决硬盘故障问题。

    1.3K20编辑于 2023-11-10
  • 来自专栏工作专用1

    反思一次Exchange服务器运维故障

    公司Exchange邮件系统邮件流故障故障发现、故障处理和故障修复的过程记录和总结反思。帮助自己总结经验和吸取教训,同时也作为一次反面教材让其他运维或管理员吸取教训。 故障发现     昨天下午18点50左右结束团队内培训分享会后,收到同事的反馈,说他们几个人都无法收到外部邮件(Internet上的邮件),故障现象为:Exchange服务器内网收发邮件正常,外网发送正常 故障处理 面临故障最重要的就是尽快通过排除法进行故障排除以实现服务的最快恢复。因此首先要做的故障排除。由于已经是下班时间,事故虽然重大,但还尚未造成重大影响。 此服务器是配置了Zabbix监控报警的,而且Zabbix已经监测到故障并发送报警,由于没有及时的处理才导致本次故障的发生。 就算是接盘也要痛改前非。 虽然有些时候,某些东西偏离了自己的发展方向,但像邮件服务器这样的公司的核心IT系统应该去深入的学习。只有了解和懂得才能遇到问题时更快的解决问题。 每次故障后总结经验和吸取教训。

    3.1K30发布于 2019-03-20
  • 来自专栏全栈程序员必看

    mt4服务器地址大全_mt4无法连接服务器

    MT4服务器地址在哪个文件 内容精选 换一换 VPC为弹性云服务器构建隔离的、用户自主配置和管理的虚拟网络环境,提升用户云中资源的安全性,简化用户的网络部署。 修改/etc/netplan/01-netcfg.yaml配置文 MT4服务器地址在哪个文件 相关内容 环境搭建完成后,若您需要修改Atlas 200 DK的IP地址,请参考以下步骤操作。 使用外部镜像文件创建私有镜像时,设置网卡属性操作需要在虚拟机内部完成,建议您在原平台的虚 MT4服务器地址在哪个文件 更多内容 本节操作介绍本地MacOS系统主机通过安装“Microsoft Remote 确定云服务器操作系统类型,不同操作系统安装NFS客户端的 本章节介绍如何将下载的证书安装到IIS服务器上。安装好证书后,您的Web服务器将能支持SSL通信,从而保证您Web服务器的通信安全。 系统管理员 本章节介绍如何将下载的证书安装到IIS服务器上。安装好证书后,您的Web服务器将能支持SSL通信,从而保证您Web服务器的通信安全。

    3.6K20编辑于 2022-09-21
领券