首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >什么是一个好的基于Java的爬虫,一个关于建立搜索引擎的学术项目?

什么是一个好的基于Java的爬虫,一个关于建立搜索引擎的学术项目?
EN

Stack Overflow用户
提问于 2013-01-30 11:51:29
回答 1查看 818关注 0票数 2

好吧,过去两天我一直在寻找一台适合我需要的爬虫。我想建立一个搜索引擎,我想自己做索引。这将是一个学术项目的一部分。虽然我没有处理能力来抓取整个网页,我想使用一个爬虫,实际上是能够做到这一点。所以我要找的是一台爬虫

  1. 支持多线程
  2. 不会错过很多链接
  3. 让我有机会(覆盖一个方法,以便我可以)访问爬行的页面的内容,以便我可以保存它,解析它等等。
  4. 服从robots.txt文件
  5. 爬行html页面(也是php、jsp等)。
  6. 识别具有相同内容的页面,并且只返回一个。

它不需要(必须)做的是:

  1. 支持pageranking。
  2. 索引结果。
  3. 抓取图像/音频/视频/pdf等。

我发现了一些非常接近我需求的库/项目,但据我所知,它们并不支持我所需要的一切:

  1. 首先,我遇到了crawler4j。唯一的问题是它不支持每个主机的礼貌间隔。因此,通过将礼貌级别设置为1000 of,使得爬虫速度非常慢。
  2. 我还找到了亚麻履带机。这确实支持多线程,但在查找和跟踪网页链接方面似乎存在问题。

我还看了更完整和复杂的“爬行器”,如Heritrix和Nutch。虽然我不太擅长更复杂的东西,但我绝对愿意使用它,如果我确信它将能够做我需要它做的事情:抓取网页,给我所有的网页,以便我可以阅读它们。

长话短说:我正在寻找一个爬虫,在所有网页上的速度非常快,并给我做一些事情的机会,与他们。

EN

回答 1

Stack Overflow用户

发布于 2013-03-22 18:06:35

AFAIK,Apache适合您的大部分需求。Nutch也有一个插件架构,如果您需要的话,它可以帮助您编写自己的插件。您可以通过wiki询问邮件列表中是否有任何问题。

0

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14603330

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档