在我的项目中
目前,我们正在使用石墨监测QOS。我们正在储存爬行该物品所需的时间。
x.time_taken这种方法的问题是,如果只影响单个用户,我们就会收到关于QOS的错误警报。
什么是正确的工具/技术来回答/监测以下几点:
我认为石墨和状态是不正确的工具。有什么更好的工具来回答这两个问题?
发布于 2014-05-13 13:57:15
您所要求的通常称为服务监视。出于非常好的理由,您希望了解事件的服务影响,而不仅仅是事件已经发生。
这种方法的优点就像您在需求中所述的那样--您可以将重点放在影响大部分用户基础的事件上,并且立即列出受影响的用户列表。
IMHO的主要缺点是,服务监视通常比简单的性能或事件/警报监视复杂得多。它还经常依赖于服务模型,在我的经验中,这个模型很难构建,甚至更难跟上。
例如,如果您的系统中的服务器表现出显著的减速或故障,这可能会影响到所有使用依赖于该服务器的服务的用户,或者,如果存在负载平衡机制或冗余机制,那么它可能会影响到一个非常小的子集,甚至没有影响。
您需要在服务监视模型中反映此体系结构,并在每次更新系统体系结构或部署时对其进行更改。
如果您的系统是静态的或足够关键的,足以保证您的投资,那么这可能是值得的。如果不是这样,那么一个简单的折衷方案可能只是更新正在进行的图形化和警报,以便在一定数量的用户或服务器上的所有用户的平均响应时间大幅度增加时发出警报。
这可能会给您所追求的大部分好处,而无需对服务监视解决方案的额外复杂性进行投资。
如果您确实希望扩展您的监视方法,并且希望坚持使用开放源码工具,那么如果您的重点是基础设施,或者有相当多的web服务监视解决方案具有自由层(如pingdom),我将从NAGIOS开始:
https://stackoverflow.com/questions/23340384
复制相似问题