我试图更好地理解在HA集群中使用RHEV/oVirt (或其他OSS解决方案)实现了什么。我感兴趣的是知道失败需要多长时间,以及具体发生了什么,这样我就可以判断对于不同类型的情况,这是否是一个可接受的解决方案。
例如,当系统恢复时,系统的状态是什么--它到底是停在哪里了,还是像从系统中拔出电源一样,并且在停电后重新启动(因此磁盘状态不一致?)
我知道这是个含糊不清的问题。但是,在这样的HA配置中运行VM的最佳实践是否有上述考虑呢?从一个几乎没有经验的外行人来看,似乎任何应用程序都应该能够安装在VM上,如果主VM主机崩溃,它会神奇地工作,而另一个VM主机将接管它。但情况似乎并非如此,也许有一些基本的考虑因素可以适用于大多数解决方案。
发布于 2021-05-05 13:40:18
故障转移使用典型的群集机制--检测到一个故障(不可访问的管理程序),对系统管理程序进行隔离(支持多个机制和层),并在其他主机上启动标记为HA的VM。根据您的设置和硬件,该过程应花费大约2分钟或更短的时间。
对于灾难场景,这在oVirt中很好地工作,但是这些VM的恢复就好像是由于停电一样,所有在飞行中的数据当然都会丢失。如果您关心状态,您需要在您的管理程序之上实现active-active软件,通常的VM故障转移是不够的。尽管如此,对于大多数场景来说,这是非常重要的,能够通过标记部署在其上的VM来将任何软件堆栈转换为HA堆栈的优点是相当重要的。
简而言之,基本的VM HA是一个很好的特性,但是如果您确实需要没有任何停机时间,并且永远不会丢失内存状态,那么您将需要使用实现活动/活动集群、分片、分布式或尝试完全无状态的软件,因此丢失的节点将无关紧要。如果您指定要运行的实际软件,也许我们可以就如何处理它提出建议。
https://serverfault.com/questions/1062554
复制相似问题