我正在使用简单的html dom来抓取一个新闻网站。在花了很长时间将reative URls修复为absolute之后,我终于能够像这样正确地解决这个问题:
$url = 'http://www.nu.nl';
$html = file_get_html($url);
foreach($html->find('a') as $element) {
echo url_to_absolute($url, $element->href), "<br />";
}现在的问题是,这会将href输出为纯文本。在简单的html dom中有内置的函数,如"outertext“、"innertext”等等,可以将html转换为纯html。如何在上面的代码中使用这些函数?例如,我如何回显完整的页面echo $html并包含上面的代码来修复URls?
发布于 2013-05-16 17:21:43
没有经过测试,但我认为你可以这样做
$url = 'http://www.nu.nl';
$html = file_get_html($url);
foreach($html->find('a') as $element) {
$element->href = url_to_absolute($url, $element->href);
}
echo $html->save();由于$element是一个引用(我假设),而$html->save()将从DOM树重新创建它,因此它将给出修改后的源代码
https://stackoverflow.com/questions/16582733
复制相似问题