嗨,谁能推荐一个简单的java网络爬虫,爬行一个网站,并返回一个链接列表的网站?不,我不需要解析器。感谢您的关注。
发布于 2011-03-01 14:10:34
网络爬虫(几乎从定义上说)从来都不是“简单”的。
然而,有两个名字(尽管两者都有学习曲线):
两者都是开源的,可以实现您想要的结果,尽管简单地列出网站中的链接并不是构建它们的目的(Nutch是用来构建搜索索引的,Heritrix是用来归档网站的)。您需要做一些自定义配置来完成任务。
HTTrack是一个简单得多的工具,但不是用Java实现的。
https://stackoverflow.com/questions/5155535
复制相似问题