文章/答案/技术大牛

发布

社区首页 >问答首页 >幂律与其他分布的比较

问幂律与其他分布的比较
EN

Stack Overflow用户

提问于 2018-03-13 21:22:57

回答 1查看 2K关注 0票数 3

我正在使用Jeff的powerlaw包来尝试将我的数据安装到powerlaw中。Jeff的软件包是基于Clauset al的论文，其中讨论了Powerlaw。

首先，关于我的数据的一些细节：

它是离散的(字计数数据)；
它严重偏左(偏高)
它是轻子(超额峰度大于10)

我到目前为止所做的一切

df_data是我的Dataframe，其中word_count是一个包含大约1000个字标记的单词计数数据的系列。

首先，我生成了一个fit对象：

fit = powerlaw.Fit(data=df_data.word_count, discrete=True)

接下来，我将我的数据的powerlaw分布与其他分布(即对数正态分布、指数分布、lognormal_positive分布、stretched_exponential分布和truncated_powerlaw分布)和fit.distribution_compare(distribution_one，distribution_two)方法进行比较。

作为distribution_compare方法的结果，我获得了每个比较的(r，p)元组如下：

Fit.distribution_compare(‘幂律’，'lognormal') = (0.35617607052907196，0.5346696007)
Fit.distribution_compare(“幂律”，“指数”)= (397.3832646921206，5.39952097178692e-06)
Fit.distribution_compare(‘幂律’，'lognormal_positive') = (27.82736434863289，4.2257378698322223e-07)
Fit.distribution_compare(‘幂律’，'stretched_exponential') = (1.37624682020371，0.2974292837452046)
Fit.distribution_compare(‘幂律’，'truncated_power_law') =(-0.0038373682383605，0.83159372694621)

根据“权力法”文件：

R:浮动这两组可能性的对数似然比。如果为正，则第一组可能性更大(因此产生它们的概率分布更适合于数据)。如果是否定的，则相反。 P:浮动 R的符号的意义，如果低于临界值(通常是.05)，则认为R的符号是显着的。如果高于临界值，则认为R的符号是由统计波动引起的。

从幂律、指数分布和对数正态分布的比较结果来看，我倾向于说我有幂律分布。

这是否是对测试结果的正确解释/假设？还是我漏掉了什么？

python

power-law

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-03-14 03:01:14

首先，虽然这些方法可能是由我、Cosma Shalizi和Mark开发的，但我们的实现是在Matlab和R中完成的。我认为您使用的python实现可能来自Jeff或Javier Matamala，或者可能是Joel (所有这些都可以在我的网站上找到。)。

关于结果。似然比测试(LRT)不允许你得出结论，认为你有或没有权力分配。它只是一个模型比较工具，意味着它评估幂律是否比其他方法更适合你的数据。(我这样说是因为轻铁并不是一种合适的方法。)因此，即使权力分配优先于所有选择，这并不意味着您的数据是权力-法律分布。这只意味着，幂律模型是一个不那么糟糕的数据统计模型，而不是其他方法。

要评估幂律分布本身是否是一个统计上合理的模型，您应该使用半参数引导我们在论文中描述了计算拟合幂律模型的p值。如果p>0.1和权力法模型比轻轨的替代方案更受青睐，那么您就可以在权力分配之后得出对数据的相对强大的支持。

回到您的具体结果:每个轻LRT比较产生一对(r，p)，其中r是归一化的对数似然比，p是该比率的统计意义。这里测试的p值是r的符号是否有意义。如果轻轨的p<0.05，那么一个正信号表示幂律模型是可取的.看看你的结果，我发现指数和lognormal_positive的替代方案比幂律模型更适合数据。然而，对数正态分布、stretched_exponential和truncated_power_law不是，这意味着这些替代方案与您的幂律模型一样适合数据。

如果没有幂律模型本身的假设检验的p值，轻铁结果就不能完全解释。但是，即使是部分解释也与权力法律模式的有力证据不一致，因为两个非权力法律模型与这些数据的幂律一样好(坏)。指数模型确实比幂定律更糟糕这一事实并不令人惊讶，考虑到你的数据是多么的不正确，所以没有什么好写的。

票数 5

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/49266070

复制

相似问题

问幂律与其他分布的比较
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问幂律与其他分布的比较EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问幂律与其他分布的比较
EN