我想刮imdb的前100部电影的img,看起来很成功,但是它给了我错误的url
imdb网站:https://www.imdb.com/search/title/?count=100&groups=top_1000&sort=user_rating
url = 'https://www.imdb.com/search/title/?count=100&groups=top_1000&sort=user_rating'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
movie_data = soup.findAll('div', attrs={'class': 'lister-item mode-advanced'})
for store in movie_data:
imageDiv = store.find('div', {'class': 'lister-item-image float-left'})
img = imageDiv.a.img['src']而img总是出错url
发布于 2022-01-02 01:05:47
在进行web抓取时,您需要查看HTML以了解它在做什么。所有这些图像都加载假的“电影单元”图像开始。这就是他们的src标记中的<img>属性,这正是您要获取的内容。
实际的电影缩略图存储在loadlate属性中,该属性在页面加载后由Javascript获取。这使得它能够更快地加载,并在稍后填写图像。
所以,用这个代替:
img = imageDiv.a.img('loadlate')https://stackoverflow.com/questions/70552945
复制相似问题