文章/答案/技术大牛

发布

社区首页 >问答首页 >Python(bs4)维基页面抓取

问Python(bs4)维基页面抓取
EN

Stack Overflow用户

提问于 2020-09-01 08:44:21

回答 2查看 57关注 0票数 0

我只想从wiki页面上删掉电影标题，请帮我一下。

我的代码：

url = 'https://en.wikipedia.org/wiki/List_of_American_films_of_2020'
page = requests.get(url)
soup = BeautifulSoup(page.content,'html.parser')
movies = soup.find('table',{'class':'wikitable sortable'})
print(movies)

我只想从结构中过滤掉电影标题，就像图像中的片名只应该是“丢失的传输”。

这是HTML中一部电影的结构：

html

web-scraping

beautifulsoup

python

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-09-01 09:07:42

您可以进一步使用刮过的表。

table_body = movies.find('tbody') 
titles = [] 
rows = table_body.find_all('tr') 
for row in rows[1:]: # leaving the first row, seems it is a header
    title_cell = row.select("td i a") 
    titles.append(title_cell[0].contents[0]) 
print(titles)

票数 1

Stack Overflow用户

发布于 2020-09-01 09:08:54

这真的取决于你在追求什么。如果您只想刮那页面，有一种更简单的方法：

import pandas as pd
pd.read_html("https://en.wikipedia.org/wiki/List_of_American_films_of_2020")

它将获得页面中包含在<table></table HTML中的所有信息。如果您的范围更多地从维基百科获取信息，您也不必使用网络抓取，因为有一个非常有用的API接口。如果你的目标是，学习网络抓取(请永远记住robots.txt )，你可以看看这教程，这对我有很大帮助。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63684246

复制

相似问题

问Python(bs4)维基页面抓取
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python(bs4)维基页面抓取EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python(bs4)维基页面抓取
EN