想知道是否有其他人遇到过这个问题,他们是否找到了解决办法。
我有一个应用程序,它使用QueryPath的htmlqp()方法解析网页(我不控制)。
我遇到的问题是,每当分析一个页面时,其中碰巧有一个内联的<script>标记w/一些javacript,其中也引用了某种类型的having,QueryPath的writeHTML()方法试图通过在javascript中插入换行符、结束标记和其他无意义的内容来“修复”HTML,而javascript反过来破坏了页面上的所有javascript(在某些情况下,还破坏了HTML)。
例如:
<script>
var $jQ = jQuery.noConflict();
// Use jQuery via $jQ(...)
$jQ(document).ready(function(){
$jQ("#mktFrmSubmit").wrap("<div class='buttonSubmit'></div>");
$jQ(".buttonSubmit").prepend("<span></span>");
});
</script>-变成-
<script>
var $jQ = jQuery.noConflict();
// Use jQuery via $jQ(...)
$jQ(document).ready(function(){
$jQ("#mktFrmSubmit").wrap("<div class='buttonSubmit'></script>
</div>");
$jQ(".buttonSubmit").prepend("<span></span>");
});显然,后者明显地打破了。
有人知道如何阻止QueryPath这样做吗?或者让它忽略<script>标记正文中的一般内容?
谢谢。
发布于 2014-04-29 14:10:32
我们建议使用HTML 5-PHP库来解析HTML。内置到PHP中的较旧的HTML4.01解析器(通过libxml)在JavaScript中并不特别优秀。但是新的HTML5 PHP库是为处理这种情况而构建的。
这是图书馆:
https://github.com/Masterminds/html5-php
马特·法里纳( Matt Farina )写了一篇很棒的介绍,介绍了如何一起使用这两个库:
http://engineeredweb.com/blog/2014/querypath-html5-php/
https://stackoverflow.com/questions/23346777
复制相似问题