我想选择上面的其中之一,为特定的网站建立一个爬行框架。这不是互联网范围内的抓取。我不是建立一个搜索索引,而是有兴趣从网站上抓取特定的页面。
有没有人能详细介绍一下上述的利弊?谢谢Nayn
发布于 2010-07-16 15:39:00
你的主要任务是从网站上抓取特定的页面。
Lucene Nutch:基于Lucene Java的开源网络搜索软件
Heritrix:是互联网档案馆的开源、可扩展、web规模、归档质量的web爬虫项目
所以我认为Heritrix比Nutch更适合你的项目。
学习框架/库是一项有价值的练习。但这需要一些时间。因为您的任务并不是非常复杂,所以有时用Java从头开始编写一个简单的爬行器会更轻松
https://stackoverflow.com/questions/3262786
复制相似问题