首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >幂律与其他分布的比较

幂律与其他分布的比较
EN

Stack Overflow用户
提问于 2018-03-13 21:22:57
回答 1查看 2K关注 0票数 3

我正在使用Jeff的powerlaw包来尝试将我的数据安装到powerlaw中。Jeff的软件包是基于Clauset al的论文,其中讨论了Powerlaw。

首先,关于我的数据的一些细节:

  1. 它是离散的(字计数数据);
  2. 它严重偏左(偏高)
  3. 它是轻子(超额峰度大于10)

我到目前为止所做的一切

df_data是我的Dataframe,其中word_count是一个包含大约1000个字标记的单词计数数据的系列。

首先,我生成了一个fit对象:

代码语言:javascript
复制
fit = powerlaw.Fit(data=df_data.word_count, discrete=True)

接下来,我将我的数据的powerlaw分布与其他分布(即对数正态分布、指数分布、lognormal_positive分布、stretched_exponential分布和truncated_powerlaw分布)和fit.distribution_compare(distribution_one,distribution_two)方法进行比较。

作为distribution_compare方法的结果,我获得了每个比较的(r,p)元组如下:

  • Fit.distribution_compare(‘幂律’,'lognormal') = (0.35617607052907196,0.5346696007)
  • Fit.distribution_compare(“幂律”,“指数”)= (397.3832646921206,5.39952097178692e-06)
  • Fit.distribution_compare(‘幂律’,'lognormal_positive') = (27.82736434863289,4.2257378698322223e-07)
  • Fit.distribution_compare(‘幂律’,'stretched_exponential') = (1.37624682020371,0.2974292837452046)
  • Fit.distribution_compare(‘幂律’,'truncated_power_law') =(-0.0038373682383605,0.83159372694621)

根据“权力法”文件:

R:浮动 这两组可能性的对数似然比。如果为正,则第一组可能性更大(因此产生它们的概率分布更适合于数据)。如果是否定的,则相反。 P:浮动 R的符号的意义,如果低于临界值(通常是.05),则认为R的符号是显着的。如果高于临界值,则认为R的符号是由统计波动引起的。

从幂律、指数分布和对数正态分布的比较结果来看,我倾向于说我有幂律分布。

这是否是对测试结果的正确解释/假设?还是我漏掉了什么?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-03-14 03:01:14

首先,虽然这些方法可能是由我、Cosma Shalizi和Mark开发的,但我们的实现是在Matlab和R中完成的。我认为您使用的python实现可能来自Jeff或Javier Matamala,或者可能是Joel (所有这些都可以在我的网站上找到。)。

关于结果。似然比测试(LRT)不允许你得出结论,认为你有或没有权力分配。它只是一个模型比较工具,意味着它评估幂律是否比其他方法更适合你的数据。(我这样说是因为轻铁并不是一种合适的方法。)因此,即使权力分配优先于所有选择,这并不意味着您的数据是权力-法律分布。这只意味着,幂律模型是一个不那么糟糕的数据统计模型,而不是其他方法。

要评估幂律分布本身是否是一个统计上合理的模型,您应该使用半参数引导我们在论文中描述了计算拟合幂律模型的p值。如果p>0.1和权力法模型比轻轨的替代方案更受青睐,那么您就可以在权力分配之后得出对数据的相对强大的支持。

回到您的具体结果:每个轻LRT比较产生一对(r,p),其中r是归一化的对数似然比,p是该比率的统计意义。这里测试的p值是r的符号是否有意义。如果轻轨的p<0.05,那么一个正信号表示幂律模型是可取的.看看你的结果,我发现指数和lognormal_positive的替代方案比幂律模型更适合数据。然而,对数正态分布、stretched_exponential和truncated_power_law不是,这意味着这些替代方案与您的幂律模型一样适合数据。

如果没有幂律模型本身的假设检验的p值,轻铁结果就不能完全解释。但是,即使是部分解释也与权力法律模式的有力证据不一致,因为两个非权力法律模型与这些数据的幂律一样好(坏)。指数模型确实比幂定律更糟糕这一事实并不令人惊讶,考虑到你的数据是多么的不正确,所以没有什么好写的。

票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49266070

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档