近期公司一台服务器的磁盘告警“磁盘阵列错误”,经检查发现磁盘:“PD0/PD1/PD2 硬盘Medium Error DevId 并BadStripe PD0 PD1”,需要在服务器磁盘彻底崩溃之前进行 raid修复,具体过程如下: 故障排查 根据告警信息进行定位: ? 故障定位:请求支援 到底如何定位问题所在呢???答案只有一个:日志! 日志太多了,看哪些? 故障定位:信息采集 Dell技术支持会提供日志采集工具,在此推荐使用MegaCLI8_Linux.zip (为方便使用,已上传至本地镜像库,内置使用说明),点击该链接可直接下载使用,如果在家办公,该地址不能用 故障定位:剧终! Dell技术支持经过日志排查问题后会反馈结果以及处理建议,后续需要运维和ucloud机房以及Dell工程师协调时间,更换磁盘,更换磁盘前一定要记得备份数据以及做好服务迁移啊!!!
时不时有小伙伴问我硬盘数据检测和硬件坏道修复的工具,这类的工具其实蛮多的,但是让我一下子来说,还真没想起来。 (谨慎使用删除分区)分区和数据恢复我在这里就不给大家介绍了,我这次主要介绍它的“坏道检测与修复”的功能。选择盘符后,点【开始】软件就开始检测和修复硬盘坏道。 下面开始详细介绍一下怎么修复DiskGenius检测与修复硬盘坏道当机械硬盘发出怪音、无法完成分区和格式化的操作、读取文件或运行程序时出错等,可能是机械硬盘出现了坏道,需对机械硬盘进行坏道检测与修复。 本文将介绍使用DiskGenius检测与修复机械硬盘的坏道。要使用本功能,首先选择需要检测坏道的磁盘,然后点击“磁盘 - 坏道检测与修复”菜单项。 如果坏道区域存有重要数据,请不要用本功能修复坏道,而应该将硬盘送到专业的数据恢复中心恢复数据。坏道修复会破坏数据,而不是恢复数据!
硬盘修复 一般硬盘的修复步骤主要是以下几步: 第一是诊断问题,一般专业人士并不会用软件分析硬盘的故障,而是给损坏的硬盘接上电源,侦听其运作情况,硬盘会发出一些轻微的震动或者噪音,如果技术人员认为这块硬盘还可以再抢救一下的话 当然,也有极个别的情况,这个时候就需要进行磁场克隆了,具体是把受损的硬盘里面的信息完整的复制到另一个完好的硬盘里面,然后在克隆完成的完好硬盘中进行操作,把数据提取出来。 其实,很多硬盘厂商发布的硬盘管理和维护软件都是具备修复硬盘软损坏能力的。 对于扇区逻辑错误这样的问题,即使是低级的格式化软件也能修复好,但系统信息区出错就是比较难以修复的问题了,因为很多硬盘厂商对于自家产品的系统信息区内容和读取的指令代码并不公开。 在线备份服务提供商Backblaze在2013年公布了一份报告,上面显示在他们购买的25000块机械硬盘清单里,5.1%的硬盘在18个月内开始出现故障,1.4%的硬盘在18~36个月内陆续出现故障,3年之后故障率飙升到了
网龄稍长的朋友应该都还记得2009年前后的希捷硬盘固件门事件,受到波及的产品会出现掉盘,无法识别甚至丢失数据的症状。 通过不断爬文,最终找到了 DIY 修复希捷固件门硬盘的方法。如果手里有固件门硬盘的话,不妨试试。 在给硬盘通电之前,我们最好先把 TTL 线给接上。硬盘侧的接口如图,最靠近 SATA 的是 RX ,紧接着的是 TX ,第三个是 GND ,而最原理的一个空着就好。 在最后一步做完后,需要将硬盘的供电拔掉,等待10秒左右再接回。 为了避免再次出现问题,建议在修复成功后立即升级固件。 如果你查看硬盘 SMART 的话,会发现通电时间等都清零了,这是正常的。所以下次再看到库存全新0通电硬盘的时候,最好留个心眼。
如果出现下图情况就必须要进PE操作 因为硬盘的系统已经损坏了 1,进PE 2.打开diskgenius分区工具 可以看到硬盘的数据全都完蛋了 3.不用着急 右键点击硬盘选择搜索已丢失的分区 (重建主引导记录) 4.选择整个硬盘 点击开始搜索 5.搜索到这样的数据点击保留 6.如果还出现这样的对话框 还是继续选择保留 当进度到达100%的时候点击确定 7.点击保存按钮 8.然后你会发现数据都回来了 9.重建主引导记录 跳出的框框全都选则:“是“ 10.修复一下系统引导 也是在PE里面操作 熟悉的开机画面 知识普及:主分区和扩展分区的信息被保存在硬盘的 MBR内 也就是说开机运行的时候经过主板给各个部位加电 然后读取硬盘的mbr分区内的系统信息 然后加载系统 如果这个MBR分区的信息是错误的那么就会提示你一个错误信息 而这个错误信息是可以被自定义的
今天有一套环境因为网络调整,结果诺大的Greenplum集群,primary和mirror节点部分有了故障,假设有200个实例,100个segment,100个mirror,情况就是100个实例出现了问题 segment (dbid=23, content=21) from ('u','p') to ('u','p')",,,,,,,0,,"fts.c",1157, 可以从日志看到mirro发生了故障 修复segment节点,Greenplum提供的工具集gprecoverseg还蛮不错,可以转储出一个列表recov,然后专门修复列表中的segment $ gprecoverseg -o . 修复完成后,segment节点就会开启同步了。 ? 但是还是有不完善的地方,就是有12个节点的角色依然是有问题的。
我们今天做的第二个实验是:修复GRUB菜单故障实验 实验环境准备:安装过CentOS 7的VMware虚拟机 实验步骤如下: 引导急救模式,加载系统镜像 重新建立sda分区, 重新构建GRUB菜单功能配置文件 此时进入登录界面说明修复GRUB菜单故障试验成功 转载请标明出处:CentOS 7中修复GRUB菜单故障实验 (adsbygoogle = window.adsbygoogle || []
我们的服务器使用年限超过5年后,硬盘故障率都是非常高。 ? 于是乎,想快速有效的降低服务器故障的影响,核心就在于降低硬盘故障的影响。 当前业界采用更多的是在线故障监控和故障后自动修复,不能修复则只能换盘,并做业务迁移,虽然这一定程度上也起到了一些作用,降低了数据丢失的风险和对业务的影响,但毕竟有点马后炮了。 之所以考虑用SMART作为核心数据,一则是因其相关技术发展比较成熟,至今也近20年了,业界对其认可度较高,二则我们内部对硬盘故障的发现和修复,大部分也是依据SMART信息,而且采用SMART是经过我们实际验证的结果 而实际故障单是以磁盘自检失败并且不可在线修复和系统dmesg信息中的错误关键字(主要包括SCSI设备掉线,ATA设备超时和设备故障)为准发起故障处理流程,并且结单故障类型为硬盘故障,也就是说有实际换盘的 成功预测的硬盘故障数量,粗略估算已覆盖SATA硬盘故障数的50%左右,进而促使5年以上服务器对业务影响的硬件整体故障率也下降了0.5%。
2.损坏MBR扇区 本步骤就是模拟MBR扇区故障 这个dd命令用于将零填充写入硬盘 /dev/sda 的第一个扇区(MBR)。 这是一个潜在的危险命令,因为它会覆盖硬盘的引导记录,可能导致操作系统无法引导。 注意事项: 这个命令会删除硬盘的引导记录,导致操作系统无法正常引导。 如果你执行了这个命令,你可能需要重新安装引导加载程序(如GRUB)并修复引导记录。 3.恢复流程 在执行完以上流程之后 关机重启 选择第三个选择"troubleshooting"(翻译为故障排除) 第二个救援模式 创建文件夹将备份的文件夹 挂载起来 mkdir /data mount /dev/sdb /data 恢复修复sda的MBR扇区 dd if=/data/sda.mdr.bak of=/dev/sda bs=512 count=1 查看sda硬盘状态 fdisk -l
但对于硬盘分区而言,也会有数据丢失的风险。这是因为保存数据的分区有可能遇到各种各样的故障,从而导致分区中的数据受损。怎么恢复硬盘丢失的分区数据呢? 在恢复之前硬盘容量丢失,我们先看看硬盘分区数据丢失是什么因素造成的吧。 一、硬盘分区故障原因 1、误操作:人为操作硬盘分区时硬盘容量丢失,误将某个分区删除,或者GHOST操作时失误将镜相恢复到了整个硬盘,分区合并成了一个盘。 针对硬盘数据恢复,迷你兔的硬盘恢复功能可有效处理超过2TB的大磁盘,恢复硬盘丢失的数据或硬盘分区丢失的数据。迷你兔的使用方法也非常简单,即便是新手也可以没有障碍地进行操作。 只是注意不要将数据直接保存在硬盘里,以免分区故障造成数据二次丢失。 本文共 722 个字数,平均阅读时长 ≈ 2分钟
那么硬盘出现以下问题前的征兆是什么呢?告诉你如果出现下面这三个征兆就要快备份了!1、硬盘出现问题前会出现smart问题提示,这是硬盘厂家本身内置在硬盘里的自动检测功能作用。 出现这种提示就说明硬盘有潜在的物理问题,可能很快就不会正常运行了。2、在Win初始化的时候就会死机,这种情况比较复杂,导致这种情况的原因还有内存质量不够,病毒破坏等等。 只有确定是硬盘问题之后才能进行处理。3、虽然可以进入Win系统,但运行程序时总是出错,即便是运行磁盘扫描也不能正常的通过,会在扫描的时候死机。 这种情况即可能是硬盘导致,也可能是电脑系统的软件问题导致,如果排除了软件问题问题之后就说明是硬盘物理问题了。 4、在BIOS设置里无法识别硬盘,或者是即便能够识别也不能操作系统找到硬盘,这就属于比较严重的问题了。
如果硬盘可能会出现锁死或坏道的故障,会造成 SHELL 命令的失效,包括 reboot,powoff,,shutdown,用正常的命令是没法完成重启的。 : /sbin/reboot: Input/output error # shurdown -r now bash: /sbin/shutdown: Input/output error 很明显,因为硬盘的故障 下次启动时系统自动 fsck 可能会更正磁盘错误,但首先需要使系统重启,拉掉电源这个办法可能会造成硬盘的伤害。 可以让内核直接重启,不需要读取(已经锁死或坏掉的)硬盘,如下: 1、执行: echo 1 > /proc/sys/kernel/sysrq "magic SysRq key"提供了一个通过/proc 来直接给内核发送命令的方法
使用megaraid修复raid1掉线硬盘 使用说明: 查看硬盘状态 ~# megacli -PDList -aAll -NoLog | grep 'Firmware state' Firmware state grep 'Firmware state' Firmware state: Unconfigured(good), Spun Up Firmware state: Online, Spun Up 检查掉线硬盘 Array Row Size Expected 0 0 1 952720 MB 重新导入raid配置,掉线硬盘进入Rebuild ~# megacli -CfgForeign Exit Code: 0x00 Rebuild后硬盘恢复在线 ~# megacli -PDList -a0 |grep "Firmware state" Firmware state: Online,
如此确实能修复这白屏故障桌面,但是用户的所有事设置均被重置,加大了维护工作量,这不是做维护愿意看到的,于是左查右查,我终于找到了症结所在! (没深究,大概就是网域通讯之类的故障),Desktop.htt 文件内容将会改变,都是无法连接之类的描述,从而造成了 Active 桌面故障,一片惨白! UpdatePerUserSystemParameters Rundll32.exe USER32.DLL,UpdatePerUserSystemParameters echo= echo 桌面白屏故障修复成功 pause>NUL exit ) :Repair2 title ※修复桌面故障[桌面及壁紙]※ echo= copy /y youjpg.jpg UpdatePerUserSystemParameters Rundll32.exe USER32.DLL,UpdatePerUserSystemParameters echo 桌面白屏及壁紙故障修复成功
使用diskpart工具修复分区表:输入diskpart并按回车。输入list disk查看硬盘列表。输入select disk X(将X替换为需要修复的硬盘编号)。 方法二:使用第三方分区修复工具推荐工具:EaseUS Partition Recovery:提供硬盘分区表扫描和修复功能。MiniTool Partition Wizard:支持分区表修复和数据恢复。 打开工具并运行硬盘扫描,检测分区表损坏情况。根据提示修复分区表或恢复丢失的分区。方法三:备份和恢复数据注意: 在尝试修复分区表之前,建议优先备份重要数据以防止进一步丢失。 步骤:使用diskpart工具清除现有分区:输入select disk X(将X替换为需要修复的硬盘编号)。输入clean清除整个硬盘的分区表。 方法五:检查硬件状态步骤:使用硬盘检测工具(如CrystalDiskInfo)检查硬盘健康状态。如果硬盘存在物理损坏(如坏道),考虑更换硬盘并恢复数据。
询问到是win7的系统,放入原版win7安装盘尝试使用修复,修复程序先是没有搜索出来已安装的操作系统。 在尝试修复的时候进度条走了好久都没动静,硬关机重启再次到安装盘里面的修复。 使用修复里面的命令行提示符,检查发现系统c盘无win7操作系统的特征,却有安装光盘的特征(目录结构等)。 重启后进纯dos用diskgenius,一进入就提示分区表损坏,按确定修复过后看到c盘卷标为recovery,果然是备份还原分区。 但是硬盘的其他部分显示为未使用,这是不可能的,这台不是新机器。 保存分区表,然后通过文件查看发现d分区才是真正的系统分区,通过激活分区修改硬盘主引导记录为d分区启动,保存更改,重启。 重启提示bootmgr缺失,于是又进去win7安装盘里面的修复模式,这次修复程序有搜索出来已安装的操作系统为win7 home basic 选择下一步的时候却提示现有操作系统与光盘不匹配不让进入修复(我的光盘是旗舰版的
此次版本发布主要围绕”CQP紧急故障修复”。 版本亮点 CQP 紧急故障修复 由于 CQP 进行了命名规则改换,导致 SDK 全部失效,因此特别紧急修复发布版本。 此次修复版本包括最新的 1.X 、 2.X 和 LTS 版本。更新后的版本号如下所示: 1.12.1 1.15.1 2.1.1 手动修复 CQP 此次变更后要求 AppID 为全小写字母组成。 因此,本 SDK 需要对构建脚本进行修改,既可以修复该问题。 若开发者使用的不是上述罗列的主要版本,也可以不升级最新 SDK。 Newbe.Mahua 测试与调试 Newbe.Mahua 扩展设置中心 【开源访谈】对接 QQ 机器人平台,对接共同成长的开源社区(开源中国采访) 发布说明 Newbe.Mahua 1.18.2 修复项目模板 Newbe.Mahua 1.18.1 缺陷修复 Newbe.Mahua 1.18 恢复 QQLight Newbe.Mahua 1.17 移除 CleverQQ Newbe.Mahua 1.16 可用性修复
故障信息: Apr 22 11:00:51 host1 cmlb: [ID 107833 kern.warning] WARNING: /scsi_vhci/disk@g5000c50043ffa61f disk@g5000c50043ffa61f (sd5): Apr 22 11:00:58 host1 primary label corrupt; using backup 解决方案: 如果步骤一修复失败 ,则执行步骤二进行修复: root@host1:/tank/test# format Searching for disks...done AVAILABLE DISK SELECTIONS:
遇到这种情况不要慌,本文给出基础集群故障排查及修复指南,希望对你有所帮助。 1、集群健康状态的解读 这里直接用官方文档的解析,以避免不准确导致误导。 集群运行状况为:绿色、黄色、红色。 如果集群中的某个节点发生故障,则在修复该节点之前,某些数据可能不可用; 红色状态:表示存在一个或多个主分片未分配,因此某些数据不可用。在集群启动期间,伴随着主分片的分配过程,这可能会短暂发生。 但是,除非明确系统正在修复,否则你不能仅指望系统自身修复这一招。有时情况确实是主分片或者副本分片出了问题,这也是为什么要了解历史记录的原因。日志和慢日志都有助于辅助排查历史记录。 如果你是集群运维人员,当集群出故障之后,你看到或者监控到是集群健康状态的变化,你还能看到日志,大致知道业务层面在做什么操作导致,但是,还是强烈建议你结合你的判定结果和开发人员进行业务层面的确认和推敲,以辅助定位问题所在 删除所有副本,针对场景:也许你无法修复副本或手动移动或分配它。
问题说明 1.固态硬盘使用时间歇性卡顿。 2.固态硬盘测试写入速度只有30M/s,读取速度正常。 3.固态硬盘SMART信息正常无告警。 解决思路 1.对固态硬盘进行完整擦除。 2.重装系统。 注:固态硬盘的完整擦除次数是有限制的,因为这种擦除是物理性质的,即使用大电流对固态硬盘进行复原,是最彻底的清除。 2.插入U盘,运行UItraISO,选择”启动---写入硬盘映像“,映像文件选择PartedMagic。 3.重启电脑,以U盘方式启动,进入PartedMagic。 5.硬盘为NVME协议则选择NVMe Secure Erase-NVME Express M.2。硬盘为SATA协议则选择Secure Erase-ATA Devices。 6.勾选需要完整擦除的硬盘并点击下一步开始擦除(如因硬盘正在运行导致不可勾选,则选择Sleep)。 7.擦除完成,重装系统并重新测试。 8.硬盘恢复正常。