首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏运维之路

    3.4 事中故障处理(3故障定位

    故障定位指诊断故障直接原因或根因,故障定位有助于故障恢复动作更加有效。故障定位通常是整个故障过程中耗时最长的环节,定位的目标围绕在快速恢复的基础上,而非寻找问题根因,后者由问题管理负责。 3)测试复现 复杂系统的故障定位必然是一个跨团队协同的过程,测试复现是一个协同定位的解决方案。从岗位看,测试与bug打交道的机会最多,对于逻辑、数据引发的故障更敏感。 仅凭借管理员在海量日志中手动查看日志记录,需要登陆每一台服务器,一次次重定向文件,操作繁琐,不利于故障定位。 2)链路 这里提的链路主要包括纵向与横向的依赖关系,纵向关系指从生产对象的部署关系建立的从基础设施、网络、计算资源服务器、存储、虚拟机、容器、主机、应用系统、应用、服务的关系,通常围绕应用系统进行扩散; 3)监控 以往,监控往往被定位为“监测”的角色,即只负责发现异常,将报警发出来即尽到监控职责。

    2.2K20发布于 2021-09-14
  • 来自专栏用户9757876的专栏

    服务器故障邮件报警

    说到服务器硬件监测,用得最多的自然是Zabbix和prometheus,可是对于一般用户来说,部署要求比较高,而且也没有必要。 只是监测服务器硬件故障,并且发生问题的时候,以邮件形式告警,那么服务器自带的功能就足以。 比如戴尔服务器的idrac,配置硬件故障的邮件告警就非常简单。 如上图所示,首先填写邮件发送服务器的地址,其次就是填写发件人邮件地址,然后就是SMTP端口号,采用SSL协议的话,端口号就填写465;最后填写用户名和密码,就是发件人的邮件账号和密码。 收件人邮件地址,当然也需要填写,不然故障报给谁呢?然后可以“发送”测试邮件,一般都是秒收,如果没收到,就检查SMTP配置。 我比较关注系统运行状况和存储,尤其是存储,重要的数据都在硬盘里面呢,其他硬件故障,相对来说,没那么重要,电源坏了,可以换,内存坏个一两条,也无伤大雅。硬盘要是坏了,那就损失大了。

    1.1K30编辑于 2023-09-06
  • IDC服务器故障排除思路

    2、备件准备硬盘、内存、CPU、主板、电源模块等备件二、常规检查在不拆机、不断电的情况下检查故障服务器1、检查开机状态下服务器指示灯是否正常2、检查有无明显异味、有无明显异响3、检查外观有无明显磕碰、变形等物理损伤 4、检查电源线、电源开关是否正常5、登录BMC系统,查看设备状态和日志,定位故障服务器部件6、在授权可以关机断电的情况下,重启服务器,查看BIOS信息和BMCSEL信息定位服务器故障部件7、如确定为可热插拔的设备造成 如果最小化可以正常开机,再逐步添加其他部件,通过重启服务器来判断是哪个部件故障。2、替换法当大概知道故障范围时,可以通过1-3个部件逐步替换来查找出具体故障,检查故障现象是否有变化,来确认具体故障点。 通过逐一替换服务器内的疑似故障部件,观察故障现象是否消失,以此定位故障部件。可以先替换比较容易出故障的部件,比如硬盘、内存等。 3、交叉比较法通过同类型的部件(出现故障的零件和正常运行的零件)交叉安装测试,来排除故障部件。如果出现故障状况消失,则有可能是部件安装不到位。

    2.3K10编辑于 2024-10-06
  • 来自专栏鹅厂网事

    服务器硬盘故障预测实践

    在这些故障中“贡献”最多的当属硬盘了(如图1所示),它在服务器部件故障中占比高达70%以上,这也归结于它的体量最大,并且生命周期比较短(如表1所示),硬盘的生命周期一般只有3到5年。 它与磁盘故障间关系如图3所示: ? 由上图可以看到故障时的IO跳变大小排在前10%的故障数占比66%以上,看到这个本来让我们有信心可以用它来预测磁盘故障了。但是最后的预测正确率却不到40%。 3 预测模型 这里选取的是支持向量机SVM来对历史故障样本和非故障样本建模,再将模型用于线上数据。 如图7所示(受篇幅所限只列出了部分维度),第二行表示预测比在0.6到0.8之间并且上架月份在3到6年的预测故障盘。 三、效果篇 现已完成多个硬盘型号的故障预测,各型号预测正确率和故障覆盖率如表3所示。其中前六种型号达到运营要求,已进入推广,具体覆盖65%的SATA盘。

    14.9K90发布于 2018-02-06
  • 来自专栏python3

    负载均衡故障排错指南 (3

    这两个工具实际上也有差别: curl支持更多的协议,如:FTP, FTPS, HTTP, HTTPS, SCP, SFTP, TFTP, TELNET, DICT, LDAP, LDAPS, FILE, POP3,   -rw-r--r-- 1 root root 3779 Sep 16 10:16 install.log.syslog  [root@linux-test ~]#  但是,这两个命令的请求过程对于服务器来说真的就一样吗 3) wget多了一个Connection: Keep-Alive头。 至于这其中的区别究竟意味着什么,我们将在后续的文章中详细介绍。

    70230发布于 2020-01-06
  • 来自专栏landv

    故障排除和本地开发服务器

    故障排除 以下是一些常见的安装问题,以及建议的解决方法。 仅加载默认页面 如果你发现无论你在URL中放入什么内容,只会加载默认页面,可能是你的服务器不支持提供搜索引擎友好URL所需的REQUEST_URI变量。 本地开发服务器 PHP 提供了一个内置的可以在本地使用进行开发的 Web 服务器,免去了安装如 MAMP,XAMPP 等独立 Web 服务器的需要。 如果你在你的开发机器上安装了 PHP,你可以使用 serve 指令来启动 PHP 的内置服务器,完全安装并用于运行你的 CodeIgniter 应用程序。 :8000 这将启动服务器,并且你可以在浏览器中访问 http://localhost:8000 来查看你的应用程序。

    4.9K10发布于 2020-03-04
  • 来自专栏开源部署

    Linux服务器故障排查基本方案

    服务器架构 服务器系统为Centos7 首先需要知晓系统的对外的架构 一般架构: 1.域名--->云服务器(ECS) 2.域名--->CDN--->云服务器(OSS) 3.域名--->CDN--- >云服务器ECS+数据库RDS+缓存Redis 4.域名--->CDN--->负载均衡--->云服务器ECS+数据库RDS(主从)+缓存Redis 5.域名--->CDN-->WAF防火墙--->负载均衡 查找对应的域名和设备 Zabbix监控发钉钉告警 [1614243525084-f79b25e3-c800-40c4-bb82-6945b2340386.png? ECS服务器负载是否正常、cpu、内存负载是否过高,硬盘使用率是否达到100%等 缓存服务器 redis服务器负载是否正常、内存使用率如何 数据库服务器 数据库连接数是否正常 列出当前用户的所有连接信息 -e9717edb-39a8-410c-88e2-d8f1b3b2906f.png?

    1.1K10编辑于 2022-05-27
  • 来自专栏小网管的运维之路

    查看服务器性能及快速故障定位

    查看服务器性能及快速故障定位 适应环境 - Linux 连通性 curl print k,s[k]}' #查看当前TCP连接状态;ss更快 ss -an|awk '{print $5}'|awk -F: '{print $1}'|sort|egrep -o '[0-9]{1,3} (\.[0-9]{1,3}){3}'|uniq -c|sort -nr|head -n 10 #查看并发最多的独立IP,取其前10个;sort排序 参数nr中n是按照排序大小,r是反向排序。 ="[04/Apr/2017:12:25:00" && $4 <="[04/Apr/2017:12:26:00"' blog.log #过滤第四列的项,输出大于等于25分,小于等于26分的访问日志 故障定位 -w dst.pcap #过滤出端口为22, 且含有 FIN 标记的数据包 tcpdump -i eth0 -s 0 -l -w out.log port 3306 | strings #在数据库服务器是通过

    1.9K20发布于 2019-05-28
  • 来自专栏网络工程师笔记

    设备故障重启的3种方式

    前言 当网络设备故障时,重启设备可能会让故障消失。 下面介绍3种常用的重启方式: 通过断电重启; 通过命令行重启; 短时间(不足5秒)按住RESET键,进行重启; 1 断电重启 先将设备下电,然后重新给设备上电。 3 RESET重启 按住RESET键重启。 重启时,设备将不保存当前配置直接重启,请注意提前保存配置。 如果对你有用,帮忙点个在看+点赞+转发吧,如果有什么想法,请在评论区留言!

    1.9K20发布于 2021-05-17
  • 来自专栏DotNet 致知

    15_处理服务器故障

    http://mpvideo.qpic.cn/0b78deaagaaaieaoadgjvjpvagodammqaaya.f10002.mp4?dis_k=f6e1009af0e7395ce663923

    1.2K30编辑于 2022-03-29
  • 来自专栏用户9757876的专栏

    服务器故障、网络故障能提早知道?教你一招搞定

    在多年的IT外包服务过程中发现,一旦客户的网络或者服务器出现故障,如果我们能比客户先知道,并且迅速响应、解决问题,客户的满意度就会非常高。 那么,怎样才能做到服务器故障早知道呢? 3.安装过程中,按照提示设置合适的Hostname,填写Zabbix服务器的地址,注意,我习惯用域名来作为服务器地址,这样,当服务器IP变化的时候,就不用修改很多个客户端了,是个省事的好习惯。 3. 点击“Create host”(创建主机),输入Windows服务器的详细信息,包括主机名(与Agent配置中的Hostname相匹配)、IP地址等。 4. 3. 配置邮件告警,个人认为,邮件警告比微信好,邮件更容易追溯,微信记录一般人都不会像邮件那么保存长久,而且邮件没有换手机的烦恼。 虽然不一定知道重启的原因,但是如果这个时候,客户跟你说断网了,你就能回答:“路由器重启中,估计3分钟内恢复网络,如果还是有故障,我们会第一时间处理。” 是不是很酷?想来客户一定会很满意的!

    58410编辑于 2024-05-08
  • 来自专栏架构师成长之路

    redis cluster(3)- redis集群管理:伸缩,故障

    六、手动故障转移   有时,强制进行故障转移并不会在主服务器上导致任何问题。 Redis Cluster使用CLUSTER FAILOVER命令支持手动故障转移,该命令必须在要故障转移的主服务器的一个从服务器上执行。    手动故障转移是比较特殊的,并且与实际主控故障导致的故障转移相比更安全,因为它们是以避免数据丢失的方式发生,只有在系统确定新主服务器节点处理完全部来自旧主服务器节点的复制流后才将客户从原始主服务器节点切换到新主服务器节点 #已暂停的主服务器手动故障转移接收复制的偏移量:347540   #处理所有主服务器节点的复制流,手动故障转移可以开始。    当达到复制偏移量时,将启动故障转移,并向旧主服务器通知配置开关。 当旧主服务器节点上的客户端被解锁时,它们会被重定向到新主服务器

    97210编辑于 2022-04-14
  • 来自专栏Opensource翻译专栏

    3种处理DevOps瞬态故障的方法

    经过精心设计的解决方案可以在发出警报之前检测并尝试对瞬态故障进行自我纠正,甚至更糟的是,它们会变得无响应并发生故障。 有几种瞬态故障处理模式,包括以下白板上显示的三种:重试,节流和断路器。 重试模式有助于自动纠正短暂的瞬态故障,但此模式更适合需要较长时间才能解决的瞬态故障。 另一方面,集成测试必须模拟弹性故障,以验证集体服务解决方案可以有效地处理故障。可以使用服务虚拟化(例如Hoverfly)来模拟服务,瞬态故障和降级服务。 若解决方案和相关的故障处理模式未能实现自我修复和避免灾难性崩溃的希望,那么利益相关者将不会感到高兴。 因此,故障(如故障)是无可指责的DevOps的功能,不应该担心它们。 从这个简单的图示中可以明显看出,故障的组合和处理故障的复杂性在切换功能标志时会变得复杂。

    1.1K41发布于 2020-01-17
  • 来自专栏Spark学习技巧

    3,Structured Streaming使用checkpoint进行故障恢复

    使用checkpoint进行故障恢复 如果发生故障或关机,可以恢复之前的查询的进度和状态,并从停止的地方继续执行。这是使用Checkpoint和预写日志完成的。

    1.3K40发布于 2018-06-22
  • 来自专栏鹅厂网事

    【鹅厂网事】服务器硬盘故障预测实践

    在这些故障中“贡献”最多的当属硬盘了(如图1所示),它在服务器部件故障中占比高达70%以上,这也归结于它的体量最大,并且生命周期比较短(如表1所示),硬盘的生命周期一般只有3到5年。 它与磁盘故障间关系如图3所示: 由上图可以看到故障时的IO跳变大小排在前10%的故障数占比66%以上,看到这个本来让我们有信心可以用它来预测磁盘故障了。但是最后的预测正确率却不到40%。 3 预测模型 这里选取的是支持向量机SVM来对历史故障样本和非故障样本建模,再将模型用于线上数据。 如图7所示(受篇幅所限只列出了部分维度),第二行表示预测比在0.6到0.8之间并且上架月份在3到6年的预测故障盘。 三、效果篇 现已完成多个硬盘型号的故障预测,各型号预测正确率和故障覆盖率如表3所示。其中前六种型号达到运营要求,已进入推广,具体覆盖65%的SATA盘。

    2.3K10编辑于 2023-03-07
  • 来自专栏Owen's World

    服务器3

    name 'server-dev.343.cn' 复制代码 一直以为是证书问题,发现nginx的配置 server_name配错了... butu18.04系统BUG引起的负载过高问题 问题描述: 此前测试服务器负载偏高 当日CPU频繁达到100%,负载几十,造成服务器瘫痪。 问题原因: 自查未找到原因。做如下尝试: 1.关闭服务器上的自建服务,负载未恢复正常。 3.阿里云调整了该实例的物理存储,负载未恢复正常。 4.将该实例打包成镜像重新创建实例,负载正常。 5.将该实例重装系统,选择ubutu16版本,负载正常。 options for Ubuntu>Ubuntu, with Linux 4.15.0-55-generic" 2.grep menuentry /boot/grub/grub.cfg 查看启动顺序 3.

    56420编辑于 2021-12-07
  • 来自专栏网络安全与可视化

    如何识别服务器连接的零星故障

    通过使用Allegro网络万用表,你可以在几分钟内缩小故障的原因的范围,然后采取措施加以纠正。 首先通过独立于浏览器的web界面搜索用户。 转到概览页面,检查有问题的服务器连接。 这些 “无效连接 “在 “新的TCP连接 “图中显示为蓝色。默认情况下,显示的是当前的服务器连接。如果你放大,时间间隔会扩展到显示过去几个小时。 在某些时间发生的特别多的有问题的服务器连接会立即显现出来。 准确定位有问题的服务器连接 为了更仔细地检查潜在的问题服务器连接,点击一个峰值将时间范围限制在这个时间间隔内。 切换到 “peers “标签,现在你可以看到在有关的时间间隔内联系的服务器。再按 “无效连接 “进行排序,可以立即看到错误最多的服务器(见截图)。 因此,尽管用户信息模糊,你仍然可以在几秒钟内确定受影响的服务器,并使用隔离的网络流量详细检查故障

    94600发布于 2021-06-09
  • 来自专栏计算机主机服务器

    如何避免美国ASP主机服务器崩溃和故障

    ASP主机服务器是一种用于托管网站的服务器,其特点是可靠性高。但是,即使是最可靠的服务器也会遭受故障或崩溃。在本文中,我们将探讨如何避免美国ASP主机服务器故障和崩溃。   一、定期备份数据  定期备份数据可以帮助您在服务器出现故障或崩溃时恢复数据。备份可以存储在本地磁盘或云存储中。您可以使用备份恢复数据,以便在服务器崩溃后能够快速恢复网站。 图片  五、监控服务器  监控服务器可以帮助您及时发现服务器故障和崩溃,并采取必要的措施。您可以使用监控工具来检测服务器性能、网络流量和磁盘空间等方面的问题。 七、使用可靠的硬件  使用可靠的硬件可以帮助您避免服务器故障和崩溃。请选择品牌知名度高的服务器硬件,并确保其质量和性能都是可靠的。   请确保您的服务器和网站都有足够的安全措施来保护您的数据和业务。请确保仅授权的人员可以访问服务器和网站。  在本文中,我们探讨了如何避免美国ASP主机服务器故障和崩溃的九个步骤。

    3.7K20编辑于 2023-04-23
  • 来自专栏电光石火

    辣眼睛 3条命令干掉网络故障

    在检查路由器、咨询宽带运营商之前,大家不妨先试试下面的3条命令,也需直接就能解决你遇到的网络故障。 如果是Windows 10,点击小娜的圆球图标搜索“CMD”,进入命令提示符界面。 而ipconfig /flushdns命令可以重建本地DNS缓存,这3条命令合作往往可以其利断金。 再比如,输入“ipconfig/all”可以获得更为相信的信息,例如IP的主机信息,DNS信息,物理地址信息,DHCP服务器信息等等。

    98381发布于 2018-01-18
  • 来自专栏jtti

    服务器租用中硬盘故障的常见表现

    硬盘故障可能表现为以下一些常见迹象:1. 异常噪音:硬盘传动异常会导致嘈杂的声音,如咔哒声、嘟嘟声或其他机械运动异常的声音。2. 异常振动:硬盘在正常情况下应该是比较安静的,异常的振动可能暗示着硬盘发生故障3. 速度变慢:硬盘故障可能导致文件读取或写入速度变慢,整个系统运行速度变得明显缓慢。4. SMART报警:硬盘的自我监测、分析和报告技术(SMART)可能会显示故障预警,提醒硬盘问题。7. 应用程序错误:一些应用程序可能会显示奇怪的错误或无法正常运行,这可能是由于硬盘问题导致的。8. 若您注意到了上述表现中的一项或多项,建议立即备份重要数据,并尽快联系服务提供商或数据中心支持团队,以便诊断和解决硬盘故障问题。

    1.3K20编辑于 2023-11-10
领券