动态网页很难提取网页的全部内容。尤其是那些在页面被浏览时生成“动态”的内容。这些内容不能用curl/wget保存,甚至当您在浏览器中查看网页时也不能保存(ctrl+S通常只保存简单的源代码和图像之类的直接依赖项。但不是动态内容:用Firefox测试)。
有任何方式(或浏览器html5功能),谁能够存储整个动态内容集(某种“快照”html源后,下载了整个内容(包括动态内容)?
我可以用CLI的东西。我可以通过以下方式手动完成这一操作:等待页面完全呈现>选择所有>复制>粘贴
对于许多给定的urls来说,这将非常耗时。
发布于 2017-06-09 12:21:07
试试PhantomJS:它是一个无头浏览器,可以执行javascript。
$ phantomjs save_page.js http://example.com > page.html用save_page.js
var system = require('system');
var page = require('webpage').create();
page.open(system.args[1], function()
{
console.log(page.content);
phantom.exit();
});https://stackoverflow.com/questions/44455791
复制相似问题