首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >网刮:美丽的汤

网刮:美丽的汤
EN

Stack Overflow用户
提问于 2019-11-10 20:11:35
回答 1查看 48关注 0票数 0

我正在尝试使用漂亮的汤和Python/Pandas从维基百科页面中提取所有“感兴趣的地方”,并将它们放入数据格式。例如:

巴黎

代码语言:javascript
复制
url_Paris_01 = requests.get('https://en.wikipedia.org/wiki/1st_arrondissement_of_Paris').text
soup_Paris_01 = BeautifulSoup(url_Paris_01, "html.parser")

for headline in soup_Paris_01.find_all("span", {"class": "mw-headline"}):
    print(headline.text)
代码语言:javascript
复制
Geography
Demography
Historical population
Immigration
Quarters
Economy
Education
Map
Cityscape
**Places of interest**
Bridges
Streets and squares
See also
References
External links

不工作

代码语言:javascript
复制
soup_Paris_01.find_all('li',attrs={"id":"Places_of_interest"}) 

我看到我的“名胜古迹”都有标题标签。

名胜古迹

  • Chaumont党
  • 拉维莱特党
  • 拉巴特-杜-起首-鲁日
  • 分四度艺术中心
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-11-10 20:41:26

首先在ul span标记下查找place of interest项,然后对ul项下的所有锚标记执行find_all()

代码语言:javascript
复制
from bs4 import BeautifulSoup
import requests
url_Paris_01 = requests.get('https://en.wikipedia.org/wiki/1st_arrondissement_of_Paris').text
soup_Paris_01 = BeautifulSoup(url_Paris_01, "html.parser")
placeofinterset=soup_Paris_01.find("span",id="Places_of_interest").find_next('ul')
for place in placeofinterset.find_all('a'):
    print(place['title']) #This will give you title
    print(place.text) #This will give you text
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58792516

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档