我正在使用Abot库来抓取网页。爬虫可以正确地请求页面,但问题是几乎所有内容都是通过knockout.js动态加载的。爬虫程序目前无法请求此内容,这导致只加载了页面的一小部分。
我试着让程序等待,希望动态的请求无论如何都会被发送,但这似乎不起作用。
我希望加载整个页面,但只加载页面的底部。
如何才能使crawler请求所有数据?
谢谢!
发布于 2019-07-09 23:07:37
简短的回答:
这种方式是不可能的,你需要像浏览器一样为你处理JS。我推荐来自Scrapy的Splash (它可以通过REST API与任何语言集成)。
但在我看来,如果你不需要企业解决方案,就不要使用C#进行网络爬行,例如,python中有最简单的解决方案和更完整的库。
https://stackoverflow.com/questions/56955251
复制相似问题