首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于抓取网站状态、标题和h1的大型网站的网站爬虫

用于抓取网站状态、标题和h1的大型网站的网站爬虫
EN

Stack Overflow用户
提问于 2014-09-11 18:09:15
回答 1查看 551关注 0票数 0

我想抓取大网站(例如,与1000,000内部链接),这是太多的工具,我现在使用(尖叫青蛙和Xenu)。你知道任何PHP爬虫,它发送有关链接到数据库的数据,并可以为我提供解决方案?

或者你有任何想法来解决这个问题,当我想要概述网站上的所有内部和外部链接与网站的状态和标题?任何付费脚本或东西(但没有像http://info.deepcrawl.co.uk/pricing/usd这样的在线工具,这对我来说真的很昂贵,每月付费)。

我有一个服务器,可以在上面运行脚本。

我需要这样的东西:http://codecanyon.net/item/jseo-web-crawler-for-search-engine-optimization/full_screen_preview/8770392,但这个MySQL只能抓取很少的链接,并且不支持保存scirpt数据库。

谢谢你的建议,菲利普

EN

回答 1

Stack Overflow用户

发布于 2014-09-11 18:25:18

首先创建一个php文件,并在其中包含DOM解析器php文件。然后进入那个

代码语言:javascript
复制
$toGet = "your website link";
$innerHtmlPage = file_get_html($toGet);

下面的代码用于从网站的页面中查找标签或属性,然后您可以使用diff来获取内容。DOM解析器的功能包括纯文本、内部文本、外部文本等。

代码语言:javascript
复制
foreach ($innerHtmlPage->find('body .paginationtop .data-display-view-all span') as $innerelement) {
      $pages = trim(strip_tags(substr($innerelement, strpos($innerelement, "of") + 2)));
 }
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25784677

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档