首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >QueryPath用HTML字符串破坏脚本标记

QueryPath用HTML字符串破坏脚本标记
EN

Stack Overflow用户
提问于 2014-04-28 16:50:59
回答 1查看 287关注 0票数 1

想知道是否有其他人遇到过这个问题,他们是否找到了解决办法。

我有一个应用程序,它使用QueryPath的htmlqp()方法解析网页(我不控制)。

我遇到的问题是,每当分析一个页面时,其中碰巧有一个内联的<script>标记w/一些javacript,其中也引用了某种类型的having,QueryPath的writeHTML()方法试图通过在javascript中插入换行符、结束标记和其他无意义的内容来“修复”HTML,而javascript反过来破坏了页面上的所有javascript(在某些情况下,还破坏了HTML)。

例如:

代码语言:javascript
复制
<script>
     var $jQ = jQuery.noConflict();
     // Use jQuery via $jQ(...)
     $jQ(document).ready(function(){
       $jQ("#mktFrmSubmit").wrap("<div class='buttonSubmit'></div>");
       $jQ(".buttonSubmit").prepend("<span></span>");
     });
   </script>

-变成-

代码语言:javascript
复制
<script>
     var $jQ = jQuery.noConflict();
     // Use jQuery via $jQ(...)
     $jQ(document).ready(function(){
       $jQ("#mktFrmSubmit").wrap("<div class='buttonSubmit'></script>
</div>");
       $jQ(".buttonSubmit").prepend("<span></span>");
     });

显然,后者明显地打破了。

有人知道如何阻止QueryPath这样做吗?或者让它忽略<script>标记正文中的一般内容?

谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-04-29 14:10:32

我们建议使用HTML 5-PHP库来解析HTML。内置到PHP中的较旧的HTML4.01解析器(通过libxml)在JavaScript中并不特别优秀。但是新的HTML5 PHP库是为处理这种情况而构建的。

这是图书馆:

https://github.com/Masterminds/html5-php

马特·法里纳( Matt Farina )写了一篇很棒的介绍,介绍了如何一起使用这两个库:

http://engineeredweb.com/blog/2014/querypath-html5-php/

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/23346777

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档