首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用Symfony DomCrawler组件和Laravel 4从爬虫对象中跳过或删除html标记列表?

如何使用Symfony DomCrawler组件和Laravel 4从爬虫对象中跳过或删除html标记列表?
EN

Stack Overflow用户
提问于 2014-12-20 10:52:40
回答 1查看 2K关注 0票数 2

这是我的第一次尝试,但没有成功。

代码语言:javascript
复制
$this->crawler = $client->request('GET', $this->url);
$document = new \DOMDocument('1.0', 'UTF-8');
$root = $document->appendChild($document->createElement('_root'));
$this->crawler->rewind();
$root->appendChild($document->importNode($this->crawler->current(), true));

$selectorsToRemove = ['script','p'];
foreach ($selectorsToRemove as $selector) {
   $crawlerInverse = $this->crawler->filter($selector);
   foreach ($crawlerInverse as $elementToRemove) {
      $parent = $elementToRemove->parentNode;
      $parent->removeChild($elementToRemove);
    }
}
$this->crawler->clear();
$this->crawler->add($document);

我想从这个页面中获得"p“标记,kv会告诉我,它在段落中有一些js,所以当我尝试执行$node-> text ()时,它会给我文本和js在"p”中的“脚本”。结构是这样的;

代码语言:javascript
复制
<p>
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut    labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.
<script>
 "JS CODE"
</script>
</p>

所以我只想要Lorem ipsum文本。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-12-20 12:04:16

我看了一下DomCrawler,没有看到它有什么意义。它似乎只是围绕着已经很容易使用的DOM扩展,所以我将采取一条捷径,直接使用它。

这个例子又短又简单,你应该能够或多或少地适应它的原样。你已经准备好了一个DOMDocument。

示例:

代码语言:javascript
复制
$html = <<<'HTML'
<p>
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor
incididunt ut    labore et dolore magna aliqua. Ut enim ad minim veniam, quis
nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.
<script>
 "JS CODE"
</script>
</p>
HTML;

$dom = new DOMDocument();
$dom->loadXML($html);
$xpath = new DOMXPath($dom);

foreach ($xpath->query('//p/script') as $node) {
    $node->parentNode->removeChild($node);
}

echo $dom->saveXML();

输出:

代码语言:javascript
复制
<?xml version="1.0"?>
<p>
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor
incididunt ut    labore et dolore magna aliqua. Ut enim ad minim veniam, quis
nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.

</p>
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/27579469

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档