问使用htmlparse替换html文件(python)中的图像和css源urls
EN

Stack Overflow用户

提问于 2011-09-16 22:55:37

回答 1查看 677关注 0票数 4

我正在尝试写一个脚本，它将下载一个网页，包括所有的图像和样式表--也就是说，本地托管的版本看起来与原始版本完全相同。

最初我只是下载图像，但现在我意识到我必须(当然)编辑html源代码，以便img src实际上指向本地托管的图像。因为无论如何我都要更改html源代码，所以我决定最好将本地托管的文件更新为指向远程托管的图像和样式表。

因此，这就引出了我的问题，我是否可以使用htmlparse来搜索样式表和图像标记，然后用更新后的版本替换指向它们的链接？

我已经看过htmlparse文档，但我对python还很陌生，所以有些部分还不清楚。我想也许可以使用：

HTMLParser.handle_data(data)
This method is called to process arbitrary data. It is intended to be overridden by a 
derived class; the base class implementation does nothing.

并在其中添加我自己的替换类？还是我完全走错了路线？

当然，另一种选择是使用正则表达式来搜索标记并替换它们后面的文本，但这可能会变得非常复杂，所以我想知道htmlparse是否可以提供更简单的解决方案。

我意识到漂亮的汤将是理想的解决方案，但我将在我的公司分发完成的工具，所以我不能使用任何第三方模块。同样，我希望这个工具是独立于平台的，所以不幸的是不能使用wget。

感谢您的输入=)

python

html-parsing

回答 1

Stack Overflow用户

发布于 2013-01-19 02:05:52

如果您将Python程序打包为自包含的二进制文件(甚至不需要Python运行时)，那么您可以随意使用任何模块：http://www.pyinstaller.org/

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/7446550

复制

相似问题

问使用htmlparse替换html文件(python)中的图像和css源urls
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用htmlparse替换html文件(python)中的图像和css源urlsEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用htmlparse替换html文件(python)中的图像和css源urls
EN