我需要索引一大堆网页,有哪些好的网络爬虫工具?我最好找的是.NET能跟我交流的东西,但这不是什么花哨的东西。
我真正需要的是一些东西,我可以给一个网站的网址&它将遵循每个链接,并存储索引的内容。
发布于 2008-10-07 00:45:59
HTTrack -- http://www.httrack.com/ --是一个非常好的网站复制器。效果很好。已经用了很长时间了。
Nutch是一个网络爬虫(crawler就是你要找的程序的类型) -- http://lucene.apache.org/nutch/ --它使用一个顶级的搜索工具lucene。
发布于 2012-11-18 09:07:35
Crawler4j是一个开源的Java爬虫程序,它提供了一个简单的网络爬行界面。您可以在5分钟内设置一个多线程网络爬虫。
您可以设置自己的过滤器来访问页面或不访问页面(urls),并根据您的逻辑为每个抓取的页面定义一些操作。
选择crawler4j的一些原因;
<代码>H114您可以设置要爬网的页面大小,<代码>H215<代码>H116足够的urls
发布于 2008-10-07 01:13:31
Searcharoo.NET包含一个爬行和索引内容的爬虫,以及一个使用它的搜索引擎。您应该能够找到Searcharoo.Indexer.EXE代码的方法来捕获下载的内容,并从那里添加您自己的自定义代码……
它非常基础(所有的源代码都包含在内,并在六篇CodeProject文章中进行了解释,其中最新的一篇是这里的Searcharoo v6):爬行器遵循链接、图像地图、图像,服从ROBOTS指令,解析一些非HTML文件类型。它是针对单个网站(而不是整个网站)的。
Nutch/Lucene几乎肯定是一个更健壮的/商业级的解决方案--但我没有看过他们的代码。不知道你想完成什么,但是你也看过Microsoft Search Server Express吗?
免责声明:我是Searcharoo的作者;只是在这里提供一个选项。
https://stackoverflow.com/questions/176820
复制相似问题