我正在使用Jeff的powerlaw包来尝试将我的数据安装到powerlaw中。Jeff的软件包是基于Clauset al的论文,其中讨论了Powerlaw。
首先,关于我的数据的一些细节:
我到目前为止所做的一切
df_data是我的Dataframe,其中word_count是一个包含大约1000个字标记的单词计数数据的系列。
首先,我生成了一个fit对象:
fit = powerlaw.Fit(data=df_data.word_count, discrete=True)接下来,我将我的数据的powerlaw分布与其他分布(即对数正态分布、指数分布、lognormal_positive分布、stretched_exponential分布和truncated_powerlaw分布)和fit.distribution_compare(distribution_one,distribution_two)方法进行比较。
作为distribution_compare方法的结果,我获得了每个比较的(r,p)元组如下:
根据“权力法”文件:
R:浮动 这两组可能性的对数似然比。如果为正,则第一组可能性更大(因此产生它们的概率分布更适合于数据)。如果是否定的,则相反。 P:浮动 R的符号的意义,如果低于临界值(通常是.05),则认为R的符号是显着的。如果高于临界值,则认为R的符号是由统计波动引起的。
从幂律、指数分布和对数正态分布的比较结果来看,我倾向于说我有幂律分布。
这是否是对测试结果的正确解释/假设?还是我漏掉了什么?
发布于 2018-03-14 03:01:14
首先,虽然这些方法可能是由我、Cosma Shalizi和Mark开发的,但我们的实现是在Matlab和R中完成的。我认为您使用的python实现可能来自Jeff或Javier Matamala,或者可能是Joel (所有这些都可以在我的网站上找到。)。
关于结果。似然比测试(LRT)不允许你得出结论,认为你有或没有权力分配。它只是一个模型比较工具,意味着它评估幂律是否比其他方法更适合你的数据。(我这样说是因为轻铁并不是一种合适的方法。)因此,即使权力分配优先于所有选择,这并不意味着您的数据是权力-法律分布。这只意味着,幂律模型是一个不那么糟糕的数据统计模型,而不是其他方法。
要评估幂律分布本身是否是一个统计上合理的模型,您应该使用半参数引导我们在论文中描述了计算拟合幂律模型的p值。如果p>0.1和权力法模型比轻轨的替代方案更受青睐,那么您就可以在权力分配之后得出对数据的相对强大的支持。
回到您的具体结果:每个轻LRT比较产生一对(r,p),其中r是归一化的对数似然比,p是该比率的统计意义。这里测试的p值是r的符号是否有意义。如果轻轨的p<0.05,那么一个正信号表示幂律模型是可取的.看看你的结果,我发现指数和lognormal_positive的替代方案比幂律模型更适合数据。然而,对数正态分布、stretched_exponential和truncated_power_law不是,这意味着这些替代方案与您的幂律模型一样适合数据。
如果没有幂律模型本身的假设检验的p值,轻铁结果就不能完全解释。但是,即使是部分解释也与权力法律模式的有力证据不一致,因为两个非权力法律模型与这些数据的幂律一样好(坏)。指数模型确实比幂定律更糟糕这一事实并不令人惊讶,考虑到你的数据是多么的不正确,所以没有什么好写的。
https://stackoverflow.com/questions/49266070
复制相似问题