文章/答案/技术大牛

发布

社区首页 >问答首页 >刮网页并将其保存为静态页面

问刮网页并将其保存为静态页面
EN

Stack Overflow用户

提问于 2022-11-03 07:30:29

回答 1查看 53关注 0票数 0

我正在尝试保存载入网页内容的静态版本。为此，我在Colab中使用了kora.selenium。密码是，

#!pip install kora
from kora.selenium import wd
wd.get("https://www.cnbc.com/2022/01/03/5-ways-to-reset-your-retirement-savings-and-save-more-money-in-2022.html")
page_source = wd.page_source

with open("page_source.html", "w") as f:
    f.write(page_source)

但是在加载网页后，提取的HTML正在发生变化。如何保存带有页面内容和图像的静态HTML？

python

python-3.x

selenium

web-scraping

beautifulsoup

回答 1

Stack Overflow用户

发布于 2022-11-03 11:53:30

请参阅https://pypi.org/project/pywebcopy/

它使用lxml解析元素和请求来获取内容。您也可以对BeautifulSoup (它将lxml作为其解析器之一)做同样的工作，但是检查所有元内容并下载它是一项艰巨的工作。

您的示例下载17到/dist/cnbc-拷贝

from pywebcopy import save_website
save_website(
url="https://www.cnbc.com/2022/01/03/5-ways-to-reset-your-retirement-savings-and-save-more-money-in-2022.html",
project_folder="/dist/cnbc-copy",
project_name="cnbscopy",
bypass_robots=True,
debug=True,
open_in_browser=True,
delay=None,
threaded=False
)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/74299375

复制

相似问题

问刮网页并将其保存为静态页面
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问刮网页并将其保存为静态页面EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问刮网页并将其保存为静态页面
EN