在我的in集群上,我正在经历一个<#>系统冻结 QuasarDB IOWAIT。
我一直在使用QuasarDB批处理API以10 GBit/s的速度摄取数据。几个小时后,我在IOWAIT中拥有了所有的qdb线程,整个系统没有响应。
在系统失去反应之前,我观察到一个活动高峰。
当qdb处于IOWAIT状态时,整个系统似乎被冻结了:我可以登录,但是复制文件非常慢。
我最初以为我已经超出了IOPS的限制,但是I提供了8,000个IOPS,并且<#>spikes低于1,000 IOPS。
系统没有分页,卷也没有满。
集群是4个AWS EC2 c5n.18x大节点,数据存储在挂载的GP3卷上。
任何关于我应该找出问题的根本原因的线索都会受到欢迎。
发布于 2021-03-29 10:55:11
(免责声明:我在QuasarDB工作)
因为您使用的是更新的gp3 EBS卷类型,而且您报告的是系统范围内的系统不稳定性(而不仅仅是QuasarDB进程),所以我认为这与EBS卷类型有关,而不是与QuasarDB相关。
我们观察到了gp3体积在高压下的稳定性问题,系统被卡住了。据我们所知,这与EBS主机级驱动程序有关.GP3不稳定性也是其他人的报告。
我建议的是使用旧的GP2 EBS卷类型,看看它是否解决了这个问题。如果您仍然希望实现高吞吐量,则可以使用mdraid GP2 根据AWS本身的建议组合多个mdraidC1卷。
https://dba.stackexchange.com/questions/287506
复制相似问题