我已经部署了四台ubuntu10.04服务器。在集群场景中,它们是一对二耦合的。在这两方面,我们都有软件raid1磁盘、drbd8和OCFS2,在其之上还有一些kvm机器与qcow2磁盘一起运行。
我跟踪了这个:链接
Cor产c仅用于DRBD和OCFS,kvm机器是“手动”运行的。
当它正常工作时:良好的性能,良好的I/O,但在给定的时间,两个集群中的一个开始挂起。然后,我们试着只打开一台服务器,它就会挂起同样的服务器。当其中一台虚拟机中出现大量读取时,即在rsyn备份期间,似乎就会发生这种情况。当事实发生时,虚拟机就无法再访问了,而真正的服务器对ping的响应很好,但是没有屏幕,也没有ssh可用。
我们所能做的就是强制关闭(按住按钮)并重新启动,当它再次打开时,中继drbd正在重新同步的raid。它一直挂着,我们看到了这样的事实。
经过几个星期的痛苦,今天上午,另一个集群挂起,但它有不同的moteherboard,ram,kvm实例。类似的是读取的rsync场景和西部数字RAID磁盘在双方。
有人能给我一些意见来解决这个问题吗?
更新:我将qcow2中的所有映像转换为原始映像,并使用noatime和nodiratime在虚拟机中挂载文件系统。我用离子来进行rsync,但是今天早上当一个用户从samba共享读取大量文件时,它又挂起了。现在我正在将虚拟机图像从ocfs2移动到ext3,但这确实是一个失败.任何想法都欢迎。
发布于 2011-11-18 10:41:26
听起来您需要尝试另一种存储方案(但是如果您在VM中使用原始预先分配的磁盘,您将避免一些开销,并且只有在使用快照时才真正需要qcow2 )
VM在不使用本地磁盘的情况下运行稳定吗?
你有没有尝试过使用离子来为rsync进程分配一个更高的级别,这样它就不会破坏所有其他东西?
你用GFS而不是ocfs2测试过吗?结果可能会更好,并且您在发布的指南中有一个链接到
https://serverfault.com/questions/332282
复制相似问题