问Groovy中的爬虫(JSoup与Crawler4j)
EN

Stack Overflow用户

提问于 2014-06-23 17:45:40

回答 1查看 1.8K关注 0票数 8

我希望在Groovy中开发一个web爬虫(使用Grails框架和MongoDB数据库)，它能够抓取网站，创建站点URL及其资源类型、内容、响应时间和重定向次数的列表。

我正在就JSoup对Crawler4j的问题进行辩论。我读过他们的基本做法，但我不明白两者之间的区别。有人能建议哪一个更适合上面的功能吗？或者将两者进行比较是完全不正确的？

谢谢。

jsoup

web-crawler

crawler4j

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-06-24 05:11:49

Crawler4J是一个爬虫，珍汤是一个解析器。实际上，你可以/应该两者兼用。Crawler4J是一个简单的多线程接口，可以获取站点的所有urls和所有页面(内容)。在此之后，您可以通过使用令人惊叹的(类似jquery的) css选择器来解析数据，并对其进行实际操作。当然，您必须考虑动态(javascript生成的)内容。如果您也想要这些内容，那么您必须使用包含javascript引擎(无头浏览器+解析器)的其他内容，比如htmlunit或网络驱动程序 (selenium)，它们将在解析内容之前执行javascript。

票数 16

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/24372118

复制

相似问题

问Groovy中的爬虫(JSoup与Crawler4j)
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Groovy中的爬虫(JSoup与Crawler4j)EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Groovy中的爬虫(JSoup与Crawler4j)
EN