文章/答案/技术大牛

发布

社区首页 >问答首页 >监测QOS的工具

问监测QOS的工具
EN

Stack Overflow用户

提问于 2014-04-28 11:52:32

回答 1查看 133关注 0票数 1

在我的项目中

我们爬行x个服务器。
每个服务器的用户数从1到n不等。
我们为每个用户爬行1到z项。

目前，我们正在使用石墨监测QOS。我们正在储存爬行该物品所需的时间。

x.time_taken

这种方法的问题是，如果只影响单个用户，我们就会收到关于QOS的错误警报。

什么是正确的工具/技术来回答/监测以下几点：

只有在最小k用户受到影响时才发出警报。无事件数
受影响的用户列表。

我认为石墨和状态是不正确的工具。有什么更好的工具来回答这两个问题？

monitoring

graphite

qos

回答 1

Stack Overflow用户

发布于 2014-05-13 13:57:15

您所要求的通常称为服务监视。出于非常好的理由，您希望了解事件的服务影响，而不仅仅是事件已经发生。

这种方法的优点就像您在需求中所述的那样--您可以将重点放在影响大部分用户基础的事件上，并且立即列出受影响的用户列表。

IMHO的主要缺点是，服务监视通常比简单的性能或事件/警报监视复杂得多。它还经常依赖于服务模型，在我的经验中，这个模型很难构建，甚至更难跟上。

例如，如果您的系统中的服务器表现出显著的减速或故障，这可能会影响到所有使用依赖于该服务器的服务的用户，或者，如果存在负载平衡机制或冗余机制，那么它可能会影响到一个非常小的子集，甚至没有影响。

您需要在服务监视模型中反映此体系结构，并在每次更新系统体系结构或部署时对其进行更改。

如果您的系统是静态的或足够关键的，足以保证您的投资，那么这可能是值得的。如果不是这样，那么一个简单的折衷方案可能只是更新正在进行的图形化和警报，以便在一定数量的用户或服务器上的所有用户的平均响应时间大幅度增加时发出警报。

这可能会给您所追求的大部分好处，而无需对服务监视解决方案的额外复杂性进行投资。

如果您确实希望扩展您的监视方法，并且希望坚持使用开放源码工具，那么如果您的重点是基础设施，或者有相当多的web服务监视解决方案具有自由层(如pingdom)，我将从NAGIOS开始：

http://www.nagios.org
https://www.pingdom.com

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/23340384

复制

相似问题

问监测QOS的工具
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问监测QOS的工具EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问监测QOS的工具
EN