我有一个带有8GB内存和Reiserfs文件系统的SUSE盒,它已经运行了4年多,没有o/s和h/w相关的问题。该框服务于几个(数据库驱动的)低流量到中等流量的站点,这些站点导致低i/o、cpu和内存利用率。
最近,机器在10天内吊死了3次。这种情况发生在不正常的时间(例如,不是每一次在00:00时)。CPU、内存和HD的使用严重不足,我已经验证了这些地方在停止时也未得到充分利用,所以站点不负责。
每次盒子挂起时,它只能响应ping,但没有其他服务可用(ssh、www等)。然后我重新启动盒子,一切都恢复正常(直到下一个停止)。
我在/var/log/boot.msg (可能发生在停止之前和期间)在所有3种事件中发现的是Filesystem is NOT clean,然后是一个Replaying journal,它似乎做了很多工作,但从未达到100%:
Reiserfs super block in block 16 on 0xfd03 of format 3.6 with standard journal
Blocks (total/free): 786432/540858 by 4096 bytes
Filesystem is NOT clean
Replaying journal: Trans replayed: mountid 39, transid 12424272, desc 7381, len 9, commit 7391, next trans offset 7374
Replaying journal: | | 0.1% 1 trans
Trans replayed: mountid 39, transid 12424273, desc 7392, len 9, commit 7402, next trans offset 7385
Trans replayed: mountid 39, transid 12424274, desc 7403, len 9, commit 7413, next trans offset 7396
Trans replayed: mountid 39, transid 12424275, desc 7414, len 9, commit 7424, next trans offset 7407
Replaying journal: | / 0.5% 4 trans
Trans replayed: mountid 39, transid 12424276, desc 7425, len 8, commit 7434, next trans offset 7417
Trans replayed: mountid 39, transid 12424277, desc 7435, len 9, commit 7445, next trans offset 7428
Trans replayed: mountid 39, transid 12424278, desc 7446, len 9, commit 7456, next trans offset 7439
Replaying journal: | - 1.0% 7 trans这在第一次事件中上升到33%,在第三次事件中上升到58%。
系统的停止是否与reiserfs有关?
关于我下一步该看哪里有什么想法吗?
非常感谢
发布于 2011-08-31 18:19:54
听起来你的硬盘坏了(或者更多)。如果在正常使用过程中发现磁盘上有坏扇区.系统立即尝试恢复数据,并将磁盘标记为不干净。4岁左右很可能有磁盘问题。大多数台式硬盘驱动器只有一年或三年的保修期.服务器级驱动器通常只有3-5年的保修期.您还可以考虑运行一个实用工具,比如GRC的spinrite,它在扫描问题和刷新磁盘方面做得非常出色。(令人惊讶的是,它擅长修复所有不是盘片物理损坏造成的磁盘问题)
https://serverfault.com/questions/306936
复制相似问题