我正在尝试写一个脚本,它将下载一个网页,包括所有的图像和样式表--也就是说,本地托管的版本看起来与原始版本完全相同。
最初我只是下载图像,但现在我意识到我必须(当然)编辑html源代码,以便img src实际上指向本地托管的图像。因为无论如何我都要更改html源代码,所以我决定最好将本地托管的文件更新为指向远程托管的图像和样式表。
因此,这就引出了我的问题,我是否可以使用htmlparse来搜索样式表和图像标记,然后用更新后的版本替换指向它们的链接?
我已经看过htmlparse文档,但我对python还很陌生,所以有些部分还不清楚。我想也许可以使用:
HTMLParser.handle_data(data)
This method is called to process arbitrary data. It is intended to be overridden by a
derived class; the base class implementation does nothing.并在其中添加我自己的替换类?还是我完全走错了路线?
当然,另一种选择是使用正则表达式来搜索标记并替换它们后面的文本,但这可能会变得非常复杂,所以我想知道htmlparse是否可以提供更简单的解决方案。
我意识到漂亮的汤将是理想的解决方案,但我将在我的公司分发完成的工具,所以我不能使用任何第三方模块。同样,我希望这个工具是独立于平台的,所以不幸的是不能使用wget。
感谢您的输入=)
发布于 2013-01-19 02:05:52
如果您将Python程序打包为自包含的二进制文件(甚至不需要Python运行时),那么您可以随意使用任何模块:http://www.pyinstaller.org/
https://stackoverflow.com/questions/7446550
复制相似问题