我想抓取大网站(例如,与1000,000内部链接),这是太多的工具,我现在使用(尖叫青蛙和Xenu)。你知道任何PHP爬虫,它发送有关链接到数据库的数据,并可以为我提供解决方案?
或者你有任何想法来解决这个问题,当我想要概述网站上的所有内部和外部链接与网站的状态和标题?任何付费脚本或东西(但没有像http://info.deepcrawl.co.uk/pricing/usd这样的在线工具,这对我来说真的很昂贵,每月付费)。
我有一个服务器,可以在上面运行脚本。
我需要这样的东西:http://codecanyon.net/item/jseo-web-crawler-for-search-engine-optimization/full_screen_preview/8770392,但这个MySQL只能抓取很少的链接,并且不支持保存scirpt数据库。
谢谢你的建议,菲利普
发布于 2014-09-11 18:25:18
首先创建一个php文件,并在其中包含DOM解析器php文件。然后进入那个
$toGet = "your website link";
$innerHtmlPage = file_get_html($toGet);下面的代码用于从网站的页面中查找标签或属性,然后您可以使用diff来获取内容。DOM解析器的功能包括纯文本、内部文本、外部文本等。
foreach ($innerHtmlPage->find('body .paginationtop .data-display-view-all span') as $innerelement) {
$pages = trim(strip_tags(substr($innerelement, strpos($innerelement, "of") + 2)));
}https://stackoverflow.com/questions/25784677
复制相似问题