风暴版本:0.82
动物园管理员版本:3.4.5。
我们有一个小风暴集群(一个尼姆和三个主管),所以只使用一个动物园管理员实例,这是与风暴尼姆。
偶尔,我们开始在动物园管理员日志中得到以下错误,而我们的风暴集群则陷入停顿。
2014-04-05 13:27:32,885 [myid:] - INFO [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxnFact
ory@197] - Accepted socket connection from /10.0.1.183:56121
2014-04-05 13:27:32,886 [myid:] - WARN [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:ZooKeeperServer@7
93] - Connection request from old client /10.0.1.183:56121; will be dropped if server is in r-o mode
2014-04-05 13:27:32,886 [myid:] - INFO [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:ZooKeeperServer@8
32] - Client attempting to renew session 0x1452dd02834002e at /10.0.1.183:56121
2014-04-05 13:27:32,886 [myid:] - INFO [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:ZooKeeperServer@5
95] - Established session 0x1452dd02834002e with negotiated timeout 40000 for client /10.0.1.183:561
21在风暴结束时,我们开始在主管和员工日志中看到以下内容:
2014-04-05 11:37:29 ConnectionStateManager [WARN] There are no ConnectionStateListeners registered.
2014-04-05 11:37:29 cluster [WARN] Received event :disconnected::none: with disconnected Zookeeper.
2014-04-05 11:37:31 ClientCnxn [WARN] Session 0x1452dd028340015 for server null, unexpected error,
losing socket connection and attempting reconnect
java.net.ConnectException: Connection refused
at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)
at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:739)
at org.apache.zookeeper.ClientCnxn$SendThread.run(ClientCnxn.java:1119)
2014-04-05 11:37:42 CuratorFrameworkImpl [ERROR] Background operation retry gave up
org.apache.zookeeper.KeeperException$ConnectionLossException: KeeperErrorCode = ConnectionLoss
at org.apache.zookeeper.KeeperException.create(KeeperException.java:90)
at com.netflix.curator.framework.imps.CuratorFrameworkImpl.processBackgroundOperation(Curat
rFrameworkImpl.java:380)
at com.netflix.curator.framework.imps.BackgroundSyncImpl$1.processResult(BackgroundSyncImpl
java:49)
at org.apache.zookeeper.ClientCnxn$EventThread.processEvent(ClientCnxn.java:617)
at org.apache.zookeeper.ClientCnxn$EventThread.run(ClientCnxn.java:506)我们是否需要将动物园管理员的级别降至3.3.3,还是我们缺少了一个已知的问题/配置?
发布于 2014-04-05 18:06:14
我们还经历了暴风0.9和动物园管理员3.4.X的几个问题,即使不是您所描述的问题。
风暴邮件列表也报告了这种不兼容问题:
https://mail.google.com/mail/u/0/#search/label%3Astorm+zookeeper+3.4/144313a45ba069b5 https://mail.google.com/mail/u/0/#search/label%3Astorm+zookeeper+3.4/1447d95d10ce7582
这个稍后的版本将指向这个Storm拉请求,希望它能让我们在将来的Storm版本发布时使用ZK 3.4.X:
https://github.com/apache/incubator-storm/pull/29
在此之前,我建议将ZK降级到3.3.6 (如果您绝对需要ZK 3.4.X用于另一个系统,您可以为Storm安装一个单独的ZK实例)。您还可以克隆Storm代码并在本地合并该拉请求,或者编译主干的最新版本,但这比等待那些好心的人只为我们提供一个新版本更冒险,也更令人厌烦:)
发布于 2014-12-19 04:05:41
解决这种情况的方法是清除风暴的数据目录(在strom.yaml==>storm.local.dir中配置),然后重新启动监控器。在我的测试环境中,我通过清除storm的数据目录并重新启动nimbus和主管来做到这一点。我认为这是由以前的风暴群崩溃造成的,主管无法从这样的地点恢复过来。
https://stackoverflow.com/questions/22882983
复制相似问题