文章/答案/技术大牛

发布

社区首页 >问答首页 >什么是一个好的基于Java的爬虫，一个关于建立搜索引擎的学术项目？

问什么是一个好的基于Java的爬虫，一个关于建立搜索引擎的学术项目？
EN

Stack Overflow用户

提问于 2013-01-30 11:51:29

回答 1查看 818关注 0票数 2

好吧，过去两天我一直在寻找一台适合我需要的爬虫。我想建立一个搜索引擎，我想自己做索引。这将是一个学术项目的一部分。虽然我没有处理能力来抓取整个网页，我想使用一个爬虫，实际上是能够做到这一点。所以我要找的是一台爬虫

支持多线程
不会错过很多链接
让我有机会(覆盖一个方法，以便我可以)访问爬行的页面的内容，以便我可以保存它，解析它等等。
服从robots.txt文件
爬行html页面(也是php、jsp等)。
识别具有相同内容的页面，并且只返回一个。

它不需要(必须)做的是：

支持pageranking。
索引结果。
抓取图像/音频/视频/pdf等。

我发现了一些非常接近我需求的库/项目，但据我所知，它们并不支持我所需要的一切：

首先，我遇到了crawler4j。唯一的问题是它不支持每个主机的礼貌间隔。因此，通过将礼貌级别设置为1000 of，使得爬虫速度非常慢。
我还找到了亚麻履带机。这确实支持多线程，但在查找和跟踪网页链接方面似乎存在问题。

我还看了更完整和复杂的“爬行器”，如Heritrix和Nutch。虽然我不太擅长更复杂的东西，但我绝对愿意使用它，如果我确信它将能够做我需要它做的事情:抓取网页，给我所有的网页，以便我可以阅读它们。

长话短说:我正在寻找一个爬虫，在所有网页上的速度非常快，并给我做一些事情的机会，与他们。

nutch

heritrix

java

multithreading

web-crawler

回答 1

Stack Overflow用户

发布于 2013-03-22 18:06:35

AFAIK，Apache适合您的大部分需求。Nutch也有一个插件架构，如果您需要的话，它可以帮助您编写自己的插件。您可以通过wiki询问邮件列表中是否有任何问题。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/14603330

复制

相似问题

问什么是一个好的基于Java的爬虫，一个关于建立搜索引擎的学术项目？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问什么是一个好的基于Java的爬虫，一个关于建立搜索引擎的学术项目？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问什么是一个好的基于Java的爬虫，一个关于建立搜索引擎的学术项目？
EN