我们有一个包含4台机器的DSE 5.0集群。在数据摄取期间,其中一台机器存储了大部分数据(100G),而其他三台机器存储的数据要少得多(每台约15G )。我不知道为什么会发生这种情况,并计划进行调查,可能会在另一个问题中提出。
现在,我尝试重新平衡集群。据我所知,执行此操作的唯一方法是单击Cluster Actions -> Rebalance in OpsCenter。重新平衡开始并在大约5分钟后重复中止,并出现以下错误:
Rebalance Failed: java.rmi.UnmarshalException: Error unmarshaling return header; nested exception is:
java.net.SocketTimeoutException: Read timed out一些数据按照重新平衡预览中的建议进行传输,而大多数数据则不是。
事件日志:
Error Rebalance failed: java.rmi.UnmarshalException: Error unmarshaling return header; nested exception is: java.net.SocketTimeoutException: Read timed out admin
Info Moving node xx.xx.xx.xx from token 5848419665553670365 to 2542108353485192999 NODE-04
Info Starting rebalance可能的原因是什么?我如何调查和修复它?
该集群部署在Azure上的4台专用计算机上。
发布于 2016-10-18 09:38:28
您不应该在数据加载后重新平衡集群。您可能希望更深入地挖掘您的数据模型,并确保您的分区键将在整个环中均匀分布数据。在这种情况下,我怀疑是热点。
https://stackoverflow.com/questions/40079256
复制相似问题