我的工作是网络爬虫,从网站上获取数据使用crawler4j和一切顺利,但主要问题是基于ajax的事件。所以,我发现了爬虫库做了这件事,但我不能使用它的地点和时间。
我什么时候使用过它(我指的是工作序列)?
或
发布于 2019-05-27 14:58:33
库爬虫基本上是一个用于自己目的的爬虫。集成到crawler4j需要您的大量手工工作。
crawler4j
我建议您将硒和/或CasperJS和/或PhantomJS组合在crawler4j前面,即可以在crawler4j前面作为代理运行JavaScript引擎。但是,这会降低web爬虫的性能。
https://stackoverflow.com/questions/55010898
相似问题