首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Groovy中的爬虫(JSoup与Crawler4j)

Groovy中的爬虫(JSoup与Crawler4j)
EN

Stack Overflow用户
提问于 2014-06-23 17:45:40
回答 1查看 1.8K关注 0票数 8

我希望在Groovy中开发一个web爬虫(使用Grails框架和MongoDB数据库),它能够抓取网站,创建站点URL及其资源类型、内容、响应时间和重定向次数的列表。

我正在就JSoup对Crawler4j的问题进行辩论。我读过他们的基本做法,但我不明白两者之间的区别。有人能建议哪一个更适合上面的功能吗?或者将两者进行比较是完全不正确的?

谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-06-24 05:11:49

Crawler4J是一个爬虫,珍汤是一个解析器。实际上,你可以/应该两者兼用。Crawler4J是一个简单的多线程接口,可以获取站点的所有urls和所有页面(内容)。在此之后,您可以通过使用令人惊叹的(类似jquery的) css选择器来解析数据,并对其进行实际操作。当然,您必须考虑动态(javascript生成的)内容。如果您也想要这些内容,那么您必须使用包含javascript引擎(无头浏览器+解析器)的其他内容,比如htmlunit网络驱动程序 (selenium),它们将在解析内容之前执行javascript。

票数 16
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24372118

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档