文章/答案/技术大牛

发布

社区首页 >问答首页 >网刮:美丽的汤

问网刮:美丽的汤
EN

Stack Overflow用户

提问于 2019-11-10 20:11:35

回答 1查看 48关注 0票数 0

我正在尝试使用漂亮的汤和Python/Pandas从维基百科页面中提取所有“感兴趣的地方”，并将它们放入数据格式。例如：

巴黎

url_Paris_01 = requests.get('https://en.wikipedia.org/wiki/1st_arrondissement_of_Paris').text
soup_Paris_01 = BeautifulSoup(url_Paris_01, "html.parser")

for headline in soup_Paris_01.find_all("span", {"class": "mw-headline"}):
    print(headline.text)

Geography
Demography
Historical population
Immigration
Quarters
Economy
Education
Map
Cityscape
**Places of interest**
Bridges
Streets and squares
See also
References
External links

不工作

soup_Paris_01.find_all('li',attrs={"id":"Places_of_interest"})

我看到我的“名胜古迹”都有标题标签。

名胜古迹

Chaumont党
拉维莱特党
拉巴特-杜-起首-鲁日
分四度艺术中心

web-scraping

beautifulsoup

html

pandas

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-11-10 20:41:26

首先在ul span标记下查找place of interest项，然后对ul项下的所有锚标记执行find_all()。

from bs4 import BeautifulSoup
import requests
url_Paris_01 = requests.get('https://en.wikipedia.org/wiki/1st_arrondissement_of_Paris').text
soup_Paris_01 = BeautifulSoup(url_Paris_01, "html.parser")
placeofinterset=soup_Paris_01.find("span",id="Places_of_interest").find_next('ul')
for place in placeofinterset.find_all('a'):
    print(place['title']) #This will give you title
    print(place.text) #This will give you text

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58792516

复制

相似问题

问网刮:美丽的汤
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网刮:美丽的汤EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网刮:美丽的汤
EN