文章/答案/技术大牛

发布

社区首页 >问答首页 >卡桑德拉节点修复冻结整个集群

问卡桑德拉节点修复冻结整个集群
EN

Stack Overflow用户

提问于 2014-07-06 18:25:34

回答 2查看 2.5K关注 0票数 2

需要帮助了解卡桑德拉在我们的关键空间中的一个列家族尝试节点工具修复时发生了什么。

我们正在运行Cassandra 2.0.7，并有一个表用于索引系统中的对象数据。

CREATE TABLE ids_by_text (
  object_type text,
  field_name text,
  ref_type text,
  value text,
  ref_id timeuuid,
  PRIMARY KEY((object_type,field_name,ref_type),value,ref_id)
)

行可以长得相当大。数据库中大约有1000万个对象，平均有4-6个字段通过上表对它们进行索引。对我来说不太像。

当运行nodetool修复时，我们将运行一段时间，然后到达引发以下异常的点：

ERROR [AntiEntropySessions:8] 2014-07-06 16:47:48,863 RepairSession.java (line 286) [repair #5f37c2e0-052b-11e4-92f5-b9bfa38ef354] session completed with the following error
org.apache.cassandra.exceptions.RepairException: [repair #5f37c2e0-052b-11e4-92f5-b9bfa38ef354 on apps/ids_by_text, (-7683110849073497716,-7679039947314690170]] Sync failed between /10.0.2.166 and /10.0.2.163
    at org.apache.cassandra.repair.RepairSession.syncComplete(RepairSession.java:207)
    at org.apache.cassandra.service.ActiveRepairService.handleMessage(ActiveRepairService.java:236)
    at org.apache.cassandra.repair.RepairMessageVerbHandler.doVerb(RepairMessageVerbHandler.java:59)
    at org.apache.cassandra.net.MessageDeliveryTask.run(MessageDeliveryTask.java:60)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)
 INFO [ScheduledTasks:1] 2014-07-06 16:47:48,909 GCInspector.java (line 116) GC for ConcurrentMarkSweep: 66029 ms for 1 collections, 7898896176 used; max is 8547991552
 INFO [GossipTasks:1] 2014-07-06 16:47:48,901 Gossiper.java (line 883) InetAddress /10.0.2.162 is now DOWN
 INFO [GossipTasks:1] 2014-07-06 16:47:49,181 Gossiper.java (line 883) InetAddress /10.0.2.163 is now DOWN
 INFO [GossipTasks:1] 2014-07-06 16:47:49,184 StreamResultFuture.java (line 186) [Stream #da84b3e1-052b-11e4-92f5-b9bfa38ef354] Session with /10.0.2.163 is complete
 WARN [GossipTasks:1] 2014-07-06 16:47:49,186 StreamResultFuture.java (line 215) [Stream #da84b3e1-052b-11e4-92f5-b9bfa38ef354] Stream failed
 INFO [GossipTasks:1] 2014-07-06 16:47:49,187 Gossiper.java (line 883) InetAddress /10.0.2.165 is now DOWN
 INFO [GossipTasks:1] 2014-07-06 16:47:49,188 Gossiper.java (line 883) InetAddress /10.0.2.164 is now DOWN
 INFO [GossipTasks:1] 2014-07-06 16:47:49,189 Gossiper.java (line 883) InetAddress /10.0.2.166 is now DOWN
 INFO [GossipTasks:1] 2014-07-06 16:47:49,189 StreamResultFuture.java (line 186) [Stream #da84b3e0-052b-11e4-92f5-b9bfa38ef354] Session with /10.0.2.166 is complete
 WARN [GossipTasks:1] 2014-07-06 16:47:49,189 StreamResultFuture.java (line 215) [Stream #da84b3e0-052b-11e4-92f5-b9bfa38ef354] Stream failed

此时，其他节点将没有响应，抛出TPStatus日志，本质上没有响应。系统无法从中恢复。我们死定了。

我浏览了一下，在所有的节点上运行了“nodetool”。这对他们中的大多数人都有效，有些失败了，所以我在他们身上使用了“刺棍”。我们编写了一个进行子范围修复的脚本，我可以识别出有问题的范围，但是我还没有做足够的测试来确定这是一致的还是有症状的。测试在降低产量时是很困难的，所以我必须谨慎。

侧边栏问题..。如何停止正在进行的修理？如果我能看到事情向侧面发展，我想阻止它。

注意，键空间中的其他列家族都进行了很好的修复。

我不知道还能给出什么细节。一周来我们一直在为这件事苦苦挣扎，但是，我们被困住了。

cassandra

repair

nodetool

回答 2

Stack Overflow用户

发布于 2014-07-07 12:58:27

这可能与修复失败后的无反应有关。它在最新的2.0.9版本中得到了修正。

如何停止正在进行的修理？

它仍在进行中(https://issues.apache.org/jira/browse/CASSANDRA-3486)。

票数 1

Stack Overflow用户

发布于 2016-03-03 02:19:20

您可以在2.1.*中停止修理，如下所示：

wget -q -O jmxterm.jar http://downloads.sourceforge.net/cyclops-group/jmxterm-1.0-alpha-4-uber.jar
java -jar ./jmxterm.jar
open localhost:7199 -u [optional username] -p [optional password]
bean org.apache.cassandra.db:type=StorageService
run forceTerminateAllRepairSessions

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/24598952

复制

相似问题

问卡桑德拉节点修复冻结整个集群
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问卡桑德拉节点修复冻结整个集群EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问卡桑德拉节点修复冻结整个集群
EN