我正试图获得某些网页URI的HTML (即当页面完成加载时您最初看到的内容)。除去所有错误检查并假设为静态HTML,它是一行代码:
function GetDisplayedHTML($uri) {
return file_get_contents($uri);
}这对于静态HTML来说很好,如果页面具有静态文件依赖/引用,那么很容易通过简单的解析来扩展。因此,也可以检测到像<script src="XXX">, <a href="XXX">, <img src="XXX">, and CSS这样的标记,并在数组中返回依赖项(如果它们重要的话)。
但是,在使用events/AJAX动态创建HTML的web页面上呢?例如,假设网页的HTML只是一个简短的基于AJAX的或OnLoad脚本,它构建了可见的网页?那么单靠解析是行不通的。
我想我需要的是PHP内部的一种方式,通过一些javascript引擎或浏览器打开并呈现http响应(即我们最初获得的HTML ),一旦它“稳定”,就捕获HTML (或者静态DOM?)现在已经出现了,这将是用户实际看到的。
因为这样的网页可能会不断地改变自己,所以我必须定义“稳定”(OnLoad还是在X秒之后?)。我也不需要捕获任何计时器或异步事件状态(即“在未来某个时候可能导致网页更新的事物”)。那时,我只需要足够的DOM来表示用户可以看到的静态外观。
要在PHP中以编程方式实现这一点,我需要做些什么?
发布于 2016-04-06 20:24:57
要使用JS呈现页面,您需要使用一些浏览器。PhantomJS是为这样的任务创建的。下面是使用幻影运行的简单脚本:
var webPage = require('webpage');
var page = webPage.create();
var system = require('system');
var args = system.args;
if (args.length === 1) {
console.log('First argument must be page URL!');
} else {
page.open(args[1], function (status) {
window.setTimeout(function () { //Wait for scripts to run
var content = page.content;
console.log(content);
phantom.exit();
}, 500);
});
}它将结果HTML返回给控制台输出。您可以像这样从控制台运行它:
./phantomjs.exe render.js http://yandex.ru或者您可以使用PHP运行它:
<?php
$path = dirname(__FILE__);
$html = shell_exec($path . DIRECTORY_SEPARATOR . 'phantomjs.exe render.js http://phantomjs.org/');
echo htmlspecialchars($html);我的PHP代码假设PhantomJS可执行文件与PHP脚本位于同一个目录中。
https://stackoverflow.com/questions/36459741
复制相似问题