我正在评估各种系统监控工具,以便使用其中一个来监控我的hadoop集群。其中一个给我留下深刻印象的工具是collectl。我已经玩了几天了。
我正在努力寻找当我们使用colmux时,如何聚合collectl捕获的指标?
比方说,我的hadoop集群中有10个节点,每个节点都将collectl作为服务运行。使用colmux,我可以在单个视图中查看每个节点的性能指标(单行和多行格式)。太棒了!
但是,如果我正在考虑集群中所有节点上的CPU、IO等的聚合,该怎么办?也就是说,我希望通过将每个节点的性能指标聚合到相应的数字中,从而获得集群级别的指标而不是节点级别的指标,从而了解我的集群作为一个整体的性能。
任何帮助都是非常感谢的。谢谢!
发布于 2015-06-19 23:51:38
我已经在邮件列表上回答了这个问题,但为了那些不在上面的人的利益,我在这里重复一遍。
这是一个很酷的想法。所以,如果我理解正确的话,你可能会在底部看到某种类型的总行?我总是可以添加到我的愿望清单中,但不能保证。但是我想我也有一个解决方案,如果你不介意自己做一些额外的工作;)顺便说一句,我可以假设你已经安装了readkey,这样你就可以用箭头键来改变排序列了吗?
如果你用--noesc运行colmux,它会更多地将其从全屏中移出,并简单地将所有内容打印为滚动输出。如果还包含“--line 99999”(或一些大数字),它将打印来自所有远程系统的所有输出,这样您就不会遗漏任何内容。最后,您可以通过perl、python、bash或您最喜欢的任何脚本工具来传输输出,并自己计算总和。然后,每当您看到新的标题飞过时,打印总数并将计数器重置为0。你甚至可以添加时间戳,甚至最终让它成为你自己的开源项目。我打赌其他人也会发现它很有用。
-mark
https://stackoverflow.com/questions/30928538
复制相似问题