假设我有四个相同的路由器A、B、C和D,分别运行busybox和ptpd。A和B通过电缆1连接;C和D通过电缆2连接。我在路由器A和C上有一个小的C程序,它通过UDP向对方路由器发送一个非常小的数据包,我使用pcap来检测数据包的发送时间和到达另一端的时间,并计算一千个此类测试的平均值和偏差。
如何判断这些电缆是否不同?显然,如果一个是500ms,另一个是10ms,它们是不同的。但是,如果一个结果的平均值为200μs,标准差为8,而另一个结果的平均值为210μs,标准差为10,那么它们不同的可能性有多大?我应该做什么计算来测试这个?而且,从更技术性的角度来看,延迟的预期可变性是什么?
我知道任何中间交换机、集线器、路由器等都会增加延迟和可变性,但如果它们通过一根电缆直接连接,那么正常差异是什么?
编辑:澄清一点--这不仅仅是一个统计问题。我可以使用t检验来确定差异的概率(谢谢),但我也想知道网络设备中的不同质量通常可以归因于多少差异。例如,如果两个均值的平均值分别为208.4和208.5,我会怀疑无论t-test可能会说什么,电缆都是相同的,差异来自于测试机器。还是我错了?电缆经常会有少量的变化吗?我不知道--延迟之间的正常差异是什么?我需要什么测试才能区分电缆和设备之间的差异?(我无法切换电缆)
发布于 2011-02-05 13:56:31
你想要的是两个样本的t检验。您不需要对您所担心的典型方差做出任何假设,它们已内置于测试中。请找到适当的维基页面here。然而,统计上的不同并不一定等同于经济上的不同。您可以确认两个路由器之间的延迟时间确实不同,但差异是否足够重要?在不了解更多关于你的情况的情况下很难说,但要小心在统计杂草中走得太远。
发布于 2011-02-05 02:38:33
首先,你需要一本统计假设检验的入门读物。
然后,有几种方法来回答你的问题,但最经典的一种是考虑观察到的延迟是一个实变量(让我们称之为T,代表时间),它有一个由每根电缆的行为解释的非随机成分(让我们称之为C,代表电缆)和一个你无法解释的随机成分,它可能来自随机波动或其他你忘记考虑的因素(让我们称之为E,代表错误)。
然后,您将对电缆A-B进行一系列观察,您的模型为:
T1_i = C1 + E1_i
你认为电缆的贡献是固定的,只有随机变量E1是变化的。
您还将对电缆C-D进行一系列观察,您的模型是:
T2_i = C2 + E2_i
你认为电缆的贡献是固定的,只有随机变量E2是变化的。
现在,你已经基本解决了。您将确保消除所有系统影响,因此E1和E2实际上是波动。在这些条件下,您可以假设它们是正态的(高斯)。
使用此模型,您可以使用独立的双样本t检验来检查C1和C2是否与您预先设置的任何置信度不同。
发布于 2011-02-05 06:42:46
老实说,我不认为统计数据会对你在这里所做的事情有很大的贡献。您收集数据的成本基本上为零,并且您可以收集任意数量的数据。通过每根电缆发送几百万/十亿个数据包,然后在两个相同比例的直方图上绘制延迟。如果你看不出有什么不同,那可能就没有意义了。
摘要统计信息会销毁信息。有很多理由可以解释为什么人们想要使用它们,但我不认为它们在这里会有多大用处。如果你想学习统计数据,我肯定会鼓掌--我认为,对于那些希望能够分辨出有人在向他们灌输胡言乱语的人来说,统计知识是一项基本技能。但是,如果您只是想了解这两条电缆之间的延迟差异,一对做得很好的直方图将提供更多的信息。
https://stackoverflow.com/questions/4901476
复制相似问题