问用于抓取网站状态、标题和h1的大型网站的网站爬虫
EN

Stack Overflow用户

提问于 2014-09-11 18:09:15

回答 1查看 551关注 0票数 0

我想抓取大网站(例如，与1000,000内部链接)，这是太多的工具，我现在使用(尖叫青蛙和Xenu)。你知道任何PHP爬虫，它发送有关链接到数据库的数据，并可以为我提供解决方案？

或者你有任何想法来解决这个问题，当我想要概述网站上的所有内部和外部链接与网站的状态和标题？任何付费脚本或东西(但没有像http://info.deepcrawl.co.uk/pricing/usd这样的在线工具，这对我来说真的很昂贵，每月付费)。

我有一个服务器，可以在上面运行脚本。

我需要这样的东西：http://codecanyon.net/item/jseo-web-crawler-for-search-engine-optimization/full_screen_preview/8770392，但这个MySQL只能抓取很少的链接，并且不支持保存scirpt数据库。

谢谢你的建议，菲利普

web-crawler

回答 1

Stack Overflow用户

发布于 2014-09-11 18:25:18

首先创建一个php文件，并在其中包含DOM解析器php文件。然后进入那个

$toGet = "your website link";
$innerHtmlPage = file_get_html($toGet);

下面的代码用于从网站的页面中查找标签或属性，然后您可以使用diff来获取内容。DOM解析器的功能包括纯文本、内部文本、外部文本等。

foreach ($innerHtmlPage->find('body .paginationtop .data-display-view-all span') as $innerelement) {
      $pages = trim(strip_tags(substr($innerelement, strpos($innerelement, "of") + 2)));
 }

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/25784677

复制

相似问题

问用于抓取网站状态、标题和h1的大型网站的网站爬虫
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于抓取网站状态、标题和h1的大型网站的网站爬虫EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于抓取网站状态、标题和h1的大型网站的网站爬虫
EN