首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为PHP页面获取OnLoad HTML/DOM

为PHP页面获取OnLoad HTML/DOM
EN

Stack Overflow用户
提问于 2016-04-06 18:43:25
回答 1查看 307关注 0票数 0

我正试图获得某些网页URI的HTML (即当页面完成加载时您最初看到的内容)。除去所有错误检查并假设为静态HTML,它是一行代码:

代码语言:javascript
复制
function GetDisplayedHTML($uri) {
   return file_get_contents($uri);
}

这对于静态HTML来说很好,如果页面具有静态文件依赖/引用,那么很容易通过简单的解析来扩展。因此,也可以检测到像<script src="XXX">, <a href="XXX">, <img src="XXX">, and CSS这样的标记,并在数组中返回依赖项(如果它们重要的话)。

但是,在使用events/AJAX动态创建HTML的web页面上呢?例如,假设网页的HTML只是一个简短的基于AJAX的或OnLoad脚本,它构建了可见的网页?那么单靠解析是行不通的。

我想我需要的是PHP内部的一种方式,通过一些javascript引擎或浏览器打开并呈现http响应(即我们最初获得的HTML ),一旦它“稳定”,就捕获HTML (或者静态DOM?)现在已经出现了,这将是用户实际看到的。

因为这样的网页可能会不断地改变自己,所以我必须定义“稳定”(OnLoad还是在X秒之后?)。我也不需要捕获任何计时器或异步事件状态(即“在未来某个时候可能导致网页更新的事物”)。那时,我只需要足够的DOM来表示用户可以看到的静态外观。

要在PHP中以编程方式实现这一点,我需要做些什么?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-04-06 20:24:57

要使用JS呈现页面,您需要使用一些浏览器。PhantomJS是为这样的任务创建的。下面是使用幻影运行的简单脚本:

代码语言:javascript
复制
var webPage = require('webpage');
var page = webPage.create();
var system = require('system');
var args = system.args;

if (args.length === 1) {
    console.log('First argument must be page URL!');
} else {
    page.open(args[1], function (status) {
        window.setTimeout(function () { //Wait for scripts to run
            var content = page.content;
            console.log(content);
            phantom.exit();
        }, 500);
    });
}

它将结果HTML返回给控制台输出。您可以像这样从控制台运行它:

代码语言:javascript
复制
./phantomjs.exe render.js http://yandex.ru

或者您可以使用PHP运行它:

代码语言:javascript
复制
<?php
$path = dirname(__FILE__);
$html = shell_exec($path . DIRECTORY_SEPARATOR . 'phantomjs.exe render.js http://phantomjs.org/');

echo htmlspecialchars($html);

我的PHP代码假设PhantomJS可执行文件与PHP脚本位于同一个目录中。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36459741

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档