首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >刮网页并将其保存为静态页面

刮网页并将其保存为静态页面
EN

Stack Overflow用户
提问于 2022-11-03 07:30:29
回答 1查看 53关注 0票数 0

我正在尝试保存载入网页内容的静态版本。为此,我在Colab中使用了kora.selenium。密码是,

代码语言:javascript
复制
#!pip install kora
from kora.selenium import wd
wd.get("https://www.cnbc.com/2022/01/03/5-ways-to-reset-your-retirement-savings-and-save-more-money-in-2022.html")
page_source = wd.page_source

with open("page_source.html", "w") as f:
    f.write(page_source)

但是在加载网页后,提取的HTML正在发生变化。如何保存带有页面内容和图像的静态HTML?

EN

回答 1

Stack Overflow用户

发布于 2022-11-03 11:53:30

请参阅https://pypi.org/project/pywebcopy/

它使用lxml解析元素和请求来获取内容。您也可以对BeautifulSoup (它将lxml作为其解析器之一)做同样的工作,但是检查所有元内容并下载它是一项艰巨的工作。

您的示例下载17到/dist/cnbc-拷贝

代码语言:javascript
复制
from pywebcopy import save_website
save_website(
url="https://www.cnbc.com/2022/01/03/5-ways-to-reset-your-retirement-savings-and-save-more-money-in-2022.html",
project_folder="/dist/cnbc-copy",
project_name="cnbscopy",
bypass_robots=True,
debug=True,
open_in_browser=True,
delay=None,
threaded=False
)
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/74299375

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档