我有一个小的bosun设置,它从许多服务中收集指标,我们计划在云上扩展这些服务。这将意味着更多的数据进入bosun,因此,bosun的负载/效率/规模会受到影响。
我害怕由于网络开销而丢失数据,以及在出现故障的情况下。
我正在寻找bosun的任何性能基准报告,或者任何关于规模和HA的基准测试/测试bosun的投入。
此外,任何关于良好实践的输入都将有助于扩展bosun。
我目前的想法是,在分布式opentsdb设置的支持下,将大量的bosun二进制文件作为一个集群运行。此外,我在想,是否值得运行一些bosun executors作为收集数据的普通“收集器”(使用bosun -n命令),而另一些则只是计算警报。
这种方法的问题在于,可能会从多个bosun实例触发相同的警报(运行时不使用-n选项)。有没有更好的方法来消除重复的警报?
发布于 2016-09-03 00:31:18
当前的最佳实践是:
通过使用tsdbrelay复制指标流,您不必处理opentsdb/hbase复制,而是可以在每个数据中心设置多个隔离的监控系统,并将指标复制到任何合适的站点。我们有一个主站点和一个灾难恢复站点,并选择将所有指标复制到这两个数据中心。我实际上每天都使用DR站点进行Grafana查询,因为它离我住的地方更近。
您可以在http://bosun.org/resources上找到更多关于生产设置的详细信息,包括我们在Stack Overflow上使用的所有haproxy/tsdbrelay/etc配置文件的副本。
https://stackoverflow.com/questions/39293354
复制相似问题