我用python做了一个爬虫,我正在尝试下载这篇文章中的图片--http://www.bbc.com/news/business-34958154。这个网站的问题是,它会自动调整大小,当我尝试下载文章的图片时,它给我的是320像素(太小)。发生这种情况的原因是爬虫进入url的源文件(view- source:http://www.bbc.com/news/business-34958154),它有320个像素。有一种方法可以使图像最大尺寸,或者我如何在浏览器中看到它?这是获取图像的代码:
r = requests.get("http://www.bbc.com/news/business-34958154")
soup = BeautifulSoup(r.content)
soupAllImgs=soup.findAll('img',src=True)发布于 2015-11-30 21:06:47
该图像标记具有src="http://ichef.bbci.co.uk/news/320/media/images/78532000/jpg/_78532434_hs2ii.jpg"。通过更改URL - ***中的320,您可以获得几乎任何大小的图像:
http://ichef.bbci.co.uk/news/***/media/images/78532000/jpg/_78532434_hs2ii.jpg看起来他们使用JavaScript来动态替换它,可能取决于带宽和设备。我发现我可以得到从10到999像素的任何像素,然后是1024和2048。我没有做更多的测试。
澄清后的更新
如果你想知道屏幕上是什么,在任何JavaScript执行完- then之后,你需要像Selenium这样可以执行JS的东西,例如参见this question。
甚至有办法做到这一点,without opening a browser - be确保阅读所有答案和评论,了解所有可能的内容。
https://stackoverflow.com/questions/33997080
复制相似问题