首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用crawler4j添加(集成)爬虫?

如何使用crawler4j添加(集成)爬虫?
EN

Stack Overflow用户
提问于 2019-03-05 20:18:12
回答 1查看 73关注 0票数 0

我的工作是网络爬虫,从网站上获取数据使用crawler4j和一切顺利,但主要问题是基于ajax的事件。所以,我发现了爬虫库做了这件事,但我不能使用它的地点和时间。

我什么时候使用过它(我指的是工作序列)?

  • 在使用crawler4j获取页面之前。

  • 在使用crawler4j获取页面之后。

  • 我是否使用url来使用crawler4j,并使用它来使用爬行获取Ajax数据(页面)。
EN

回答 1

Stack Overflow用户

发布于 2019-05-27 14:58:33

爬虫基本上是一个用于自己目的的爬虫。集成到crawler4j需要您的大量手工工作。

我建议您将和/或CasperJS和/或PhantomJS组合在crawler4j前面,即可以在crawler4j前面作为代理运行JavaScript引擎。但是,这会降低web爬虫的性能。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55010898

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档