我受到维基百科页面浏览量分析的挑战。对我来说,这是第一个拥有这么多数据的项目,我有点迷失了。当我从该链接下载该文件并解压缩它时,我可以看到它有一个类似于表的结构,其行如下所示:
1 | 2 |3|4
en.m The_Beatles_in_the_United_States 2 0我很难在每一栏中找到确切的内容。我猜:
语言版本和附加信息(.m = mobile?)
文章名称
我最关心的是最后两栏。最后一个只有"0“值,我不知道它代表什么。那么,我假设第三个显示了观看的数量,但我不确定。
如果有人能帮助我理解每篇专栏到底能找到什么,或者推荐一些关于这个主题的阅读材料,我将不胜感激。谢谢!
发布于 2018-07-22 05:44:02
在这件事上花了更多时间之后,我终于找到了解决办法。我发这篇文章是为了防止将来有人有同样的问题。维基百科解释了在数据库中可以找到什么。这些解释很难找到,但您可以访问主题这里和这里。
基于此,可以看到行具有以下结构:
对每一栏的一些解释:
第1栏:
域名的请求,缩写。(...)Domain_code现在也可以是移动域名和零域名的缩写,在这种情况下,.m或.zero作为域名的第二部分插入(与完整域名一样)。例如“en.m.v”代表"en.m.wikiversity.org“。
第2栏:
对于页面级别的文件,它在/wiki/ -in请求Url之后保留未规范化部分的标题(例如: Main_Page柏林)。对于项目级别的文件,它是-。
第3栏:
在相应的小时内查看此页面的次数。
第4栏:
对此页的请求在相应小时内引起的响应总数。如果我正确理解它,响应大小将因精度低而停止。这就是为什么只有0。分页器和项目计数文件在各自的聚合级别还包括响应字节的总大小,但是这是从页面视图和项目视图文件中删除的,因为它不是非常准确。
希望有人发现它有用。
发布于 2018-07-09 11:57:25
行格式:
(来自分页,它是同一个数据集,只需较少的过滤。)
显然是错误的;它使用域名的前两部分作为wiki代码,它不适用于移动域(以<language>.m.<project>.org形式存在)。
https://stackoverflow.com/questions/51217168
复制相似问题