首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >维基百科网页浏览分析

维基百科网页浏览分析
EN

Stack Overflow用户
提问于 2018-07-06 20:24:36
回答 2查看 588关注 0票数 3

我受到维基百科页面浏览量分析的挑战。对我来说,这是第一个拥有这么多数据的项目,我有点迷失了。当我从该链接下载该文件并解压缩它时,我可以看到它有一个类似于表的结构,其行如下所示:

代码语言:javascript
复制
1   |  2                             |3|4

en.m The_Beatles_in_the_United_States 2 0

我很难在每一栏中找到确切的内容。我猜:

语言版本和附加信息(.m = mobile?)

文章名称

我最关心的是最后两栏。最后一个只有"0“值,我不知道它代表什么。那么,我假设第三个显示了观看的数量,但我不确定。

如果有人能帮助我理解每篇专栏到底能找到什么,或者推荐一些关于这个主题的阅读材料,我将不胜感激。谢谢!

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-07-22 05:44:02

在这件事上花了更多时间之后,我终于找到了解决办法。我发这篇文章是为了防止将来有人有同样的问题。维基百科解释了在数据库中可以找到什么。这些解释很难找到,但您可以访问主题这里这里

基于此,可以看到行具有以下结构:

  • 域码
  • page_title
  • count_views
  • total_response_size (不再维护)

对每一栏的一些解释:

第1栏:

域名的请求,缩写。(...)Domain_code现在也可以是移动域名和零域名的缩写,在这种情况下,.m或.zero作为域名的第二部分插入(与完整域名一样)。例如“en.m.v”代表"en.m.wikiversity.org“。

第2栏:

对于页面级别的文件,它在/wiki/ -in请求Url之后保留未规范化部分的标题(例如: Main_Page柏林)。对于项目级别的文件,它是-。

第3栏:

在相应的小时内查看此页面的次数。

第4栏:

对此页的请求在相应小时内引起的响应总数。如果我正确理解它,响应大小将因精度低而停止。这就是为什么只有0。分页器和项目计数文件在各自的聚合级别还包括响应字节的总大小,但是这是从页面视图和项目视图文件中删除的,因为它不是非常准确。

希望有人发现它有用。

票数 5
EN

Stack Overflow用户

发布于 2018-07-09 11:57:25

行格式:

  • wiki码(subproject.project)
  • 文章标题
  • 每月总计(在缺少数据时进行插值)
  • 每小时计数

(来自分页,它是同一个数据集,只需较少的过滤。)

显然是错误的;它使用域名的前两部分作为wiki代码,它不适用于移动域(以<language>.m.<project>.org形式存在)。

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51217168

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档