我正在尝试使用AbotX crawler来爬行一个网站,在这个网站上我需要渲染javascript,然后按下一个span标签。
我经常使用Abot爬虫,并希望覆盖一些类,就像我在以前的场合中必须扩展的那样,例如CrawlDecisionMaker。
但我似乎找不到从哪里开始,我希望我必须写下这样的东西:
var implemnts = new ImplementationOverride(config);
implemnts.JavascriptRenderer = new PhantomJsRendererTest(config);并扩展PhantomJsRenderer,使其能够单击呈现的页面上的按钮。
但是由于我看不到现有类做了什么,也找不到任何关于从哪里开始的信息,所以我完全迷失了方向。
我想给这个帖子贴上Abot和AbotX的标签,但我没有这方面的名气。
发布于 2016-02-19 23:46:39
AbotX ( IsJavascriptRenderingEnabled = true)将检索页面源代码并执行所有javascript以获得最终的页面呈现。该最终呈现包括所有内容(html/css),甚至包括使用javascript添加/修改的内容。它不允许您进一步执行javascript。
如果您需要进一步与页面进行交互,那么web爬虫不太可能是您所需要的。您需要使用浏览器自动化框架,如PhantomJs或Selenium。这些都是无头浏览器,允许您像在浏览器中一样与页面进行交互。
https://stackoverflow.com/questions/35484689
复制相似问题