文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用crawler4j添加(集成)爬虫？

问如何使用crawler4j添加(集成)爬虫？
EN

Stack Overflow用户

提问于 2019-03-05 20:18:12

回答 1查看 73关注 0票数 0

我的工作是网络爬虫，从网站上获取数据使用crawler4j和一切顺利，但主要问题是基于ajax的事件。所以，我发现了爬虫库做了这件事，但我不能使用它的地点和时间。

我什么时候使用过它(我指的是工作序列)？

在使用crawler4j获取页面之前。

或

在使用crawler4j获取页面之后。

或

我是否使用url来使用crawler4j，并使用它来使用爬行获取Ajax数据(页面)。

web-crawler

google-crawlers

crawler4j

回答 1

Stack Overflow用户

发布于 2019-05-27 14:58:33

库爬虫基本上是一个用于自己目的的爬虫。集成到crawler4j需要您的大量手工工作。

我建议您将硒和/或CasperJS和/或PhantomJS组合在crawler4j前面，即可以在crawler4j前面作为代理运行JavaScript引擎。但是，这会降低web爬虫的性能。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55010898

复制

相似问题

问如何使用crawler4j添加(集成)爬虫？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用crawler4j添加(集成)爬虫？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用crawler4j添加(集成)爬虫？
EN