我正在工作的一个项目,下载一个2层的网站离线浏览。
虽然我面临CSS,JS,Image的问题,
现在,我的代码保存索引html文件,并将所有链接更改为绝对值,以避免href问题。
但它不适用于离线浏览。
我的问题是,我如何写一个脚本,只下载2层的网站离线浏览,并存储所有的CSS,JS和图像的全面脱机浏览?
PS。我知道我只需要使用请求并将文件写入本地,但是如何将其放到正确的文件夹中呢?例如:/far/boo/image.png或/far/boo/css.css
发布于 2017-04-08 15:04:11
感谢上面的评论,让我的方向找到我的答案。
最后,我使用requests.get("http://somesites.com/far.boo", stream=True, headers= head)和一些循环来完成这项工作。
先定义头部,
head = {"User-Agent": "Mozilla/5.0 ..."}
我在https://httpbin.org/headers找到了我的
有点丑,但工作正确。
参考资料:download image from url using python urllib but receiving HTTP Error 403: Forbidden
https://stackoverflow.com/questions/43292632
复制相似问题