首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何按类别从维基百科中抓取数据?

如何按类别从维基百科中抓取数据?
EN

Stack Overflow用户
提问于 2015-11-10 11:21:39
回答 1查看 4.7K关注 0票数 6

我只想用维基百科的医学数据进行分析。我用蟒蛇刮东西。我使用这个库在查询中按单词进行搜索:

代码语言:javascript
复制
import wikipedia

import requests
import pprint
from bs4 import BeautifulSoup
wikipedia.set_lang("en")
query = raw_input()
WikiPage = wikipedia.page(title = query,auto_suggest = True)
cat = WikiPage.categories
for i in cat:
    print i

得到分类。

但是,我的问题是反之亦然:

我想给出类别,例如:健康或医学术语,并获得与此类型的所有文章。

我该怎么做?

EN

回答 1

Stack Overflow用户

发布于 2015-11-10 11:45:10

编辑:实际答案

还有API:类别成员,它记录了使用情况、参数,并举例说明了“如何检索给定类别中按标题排序的页面列表”。它将不会使您不必通过类别树(cf )下降。(下面是你自己,但你得到了一个很好的入口点和机器可读的结果。

旧答案:相关信息

帮助:类别页面https://en.wikipedia.org/wiki/Help:Category#Searching_for_articles_in_categories节上给出了一个非常简短的指针

除了浏览类别的层次结构外,还可以使用搜索工具查找特定类别中的特定文章。搜索特定类别中的文章,在搜索框.中键入“CategoryName” 可以添加"OR“来将一个类别的内容与另一个类别的内容连接起来。例如,输入 类别:“悬索桥”或“纽约市的桥梁” 返回所有属于类别(或两者)的页面,如下所示。 注意,使用search查找类别不会找到已经使用模板进行分类的文章。这个特性也不返回子类别中的页面。

要解决子类别问题,可以使用页面特别咨商地位:类别树。但是,该页面并没有指向明显的文档。因此,我认为必须在页面源中手动搜索<form>字段,以创建编程API。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33628825

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档