我们在Linux2.6.16内核Debian上运行Samba文件服务器时遇到了问题。这是一台旧的戴尔PowerEdge 2650服务器,但它以前从来没有遇到过这样的问题,这个问题今天早上就开始了,没有进行任何配置或其他修改。
虽然问题表现在许多方面,但它们都可能由open()系统调用完成得非常慢来解释。下面是"cat logon.bat“的一个片段,其中文件位于本地ext3文件系统上:
$ sudo strace -p 3548 -tt
Process 3548 attached - interrupt to quit
11:20:40.563088 open("logon.bat", O_RDONLY|O_LARGEFILE) = 3
11:21:00.070660 fstat64(3, {st_mode=S_IFREG|0664, st_size=44, ...}) = 0
11:21:00.070923 read(3, "cscript \\\\staff\\netlogon\\logon.v"..., 4096) = 44
11:21:00.085676 write(1, "cscript \\\\staff\\netlogon\\logon.v"..., 44) = 44
11:21:00.085906 read(3, "", 4096) = 0
11:21:00.086053 close(3) = 0
11:21:00.086222 close(1) = 0
11:21:00.086382 exit_group(0) = ?
Process 3548 detached时间戳显示,open()调用耗时20秒。(它实际上要长得多,因为这个strace是在命令运行后的一段时间内启动的。)但是,同一命令的后续运行不会有缓慢的open()调用。但过了一段时间,又变慢了。
服务器已重新启动,问题仍在继续。kern.log中没有任何报告,硬件也没有报告任何故障。
服务器仍然部分工作,所以我们不会立即把它取下来。在工作时间之外,我们将能够运行更多的测试,包括在所讨论的文件系统上强制执行fsck。
但是我们真的不知道问题出在哪里,所以我们正在寻找任何可能出错的理论,以及运行哪些测试来进一步诊断问题的想法。有什么建议吗?
我应该指出,这个特定的文件系统位于Apple设备上(通过FiberChannel连接)。RAID管理工具为所有驱动器以及整个数组提供了绿色状态灯,日志中没有任何事件表明存在任何问题。
发布于 2011-01-28 02:47:54
这是在戴尔的一个raid控制器上运行的(看起来可能是PERC/4)。如果是这样的话,megaraid内核驱动程序似乎根本没有反应或报告驱动器问题,您需要安装戴尔的OpenManage产品来查看硬件级别上发生了什么。这个帖子建议,一旦您安装了它,您将使用以下命令
omreport storage controller
omreport storage adisk controller=0
omreport storage vdisk controller=0 这里是戴尔在omreport上的文档。
更新的Megaraid控制器(PERC/5)可以单独使用MegaCLI来管理它们。
发布于 2011-01-28 09:30:10
神圣的硬盘蝙蝠侠!太慢了!
这看起来确实像是硬盘上的低级硬件问题。我希望如果您连接不同的驱动器(usb、cdrom、本地SATA ),您不会看到这些问题吗?如果你还没有试过,我建议你这样做。
如果您仍然看到不同磁盘的问题,那么重新安装操作系统可能是值得尝试的(或者仅仅从knoppix映像/类似于测试)引导它。查看挂载选项和“空闲”的输出也可能有帮助。
https://serverfault.com/questions/227906
复制相似问题