首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >什么是好的Web爬虫工具

什么是好的Web爬虫工具
EN

Stack Overflow用户
提问于 2008-10-07 00:37:54
回答 6查看 55.1K关注 0票数 16

我需要索引一大堆网页,有哪些好的网络爬虫工具?我最好找的是.NET能跟我交流的东西,但这不是什么花哨的东西。

我真正需要的是一些东西,我可以给一个网站的网址&它将遵循每个链接,并存储索引的内容。

EN

回答 6

Stack Overflow用户

回答已采纳

发布于 2008-10-07 00:45:59

HTTrack -- http://www.httrack.com/ --是一个非常好的网站复制器。效果很好。已经用了很长时间了。

Nutch是一个网络爬虫(crawler就是你要找的程序的类型) -- http://lucene.apache.org/nutch/ --它使用一个顶级的搜索工具lucene。

票数 12
EN

Stack Overflow用户

发布于 2012-11-18 09:07:35

Crawler4j是一个开源的Java爬虫程序,它提供了一个简单的网络爬行界面。您可以在5分钟内设置一个多线程网络爬虫。

您可以设置自己的过滤器来访问页面或不访问页面(urls),并根据您的逻辑为每个抓取的页面定义一些操作。

选择crawler4j的一些原因;

  1. Multi-Threaded Structure,
  2. 您可以设置要爬网的深度,
  3. 它是基于Java且开源的,用于冗余链接(urls)的
  4. 控件,
  5. 您可以设置要爬网的页数,

<代码>H114您可以设置要爬网的页面大小,<代码>H215<代码>H116足够的urls

票数 4
EN

Stack Overflow用户

发布于 2008-10-07 01:13:31

Searcharoo.NET包含一个爬行和索引内容的爬虫,以及一个使用它的搜索引擎。您应该能够找到Searcharoo.Indexer.EXE代码的方法来捕获下载的内容,并从那里添加您自己的自定义代码……

它非常基础(所有的源代码都包含在内,并在六篇CodeProject文章中进行了解释,其中最新的一篇是这里的Searcharoo v6):爬行器遵循链接、图像地图、图像,服从ROBOTS指令,解析一些非HTML文件类型。它是针对单个网站(而不是整个网站)的。

Nutch/Lucene几乎肯定是一个更健壮的/商业级的解决方案--但我没有看过他们的代码。不知道你想完成什么,但是你也看过Microsoft Search Server Express吗?

免责声明:我是Searcharoo的作者;只是在这里提供一个选项。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/176820

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档