首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Nutch与Heritrix的比较

Nutch与Heritrix的比较
EN

Stack Overflow用户
提问于 2010-07-16 15:30:47
回答 1查看 2.9K关注 0票数 2

我想选择上面的其中之一,为特定的网站建立一个爬行框架。这不是互联网范围内的抓取。我不是建立一个搜索索引,而是有兴趣从网站上抓取特定的页面。

有没有人能详细介绍一下上述的利弊?谢谢Nayn

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2010-07-16 15:39:00

你的主要任务是从网站上抓取特定的页面。

Lucene Nutch:基于Lucene Java的开源网络搜索软件

Heritrix:是互联网档案馆的开源、可扩展、web规模、归档质量的web爬虫项目

所以我认为Heritrix比Nutch更适合你的项目。

学习框架/库是一项有价值的练习。但这需要一些时间。因为您的任务并不是非常复杂,所以有时用Java从头开始编写一个简单的爬行器会更轻松

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3262786

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档