首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用htmlunit抓取动态网页

使用htmlunit抓取动态网页
EN

Stack Overflow用户
提问于 2012-08-25 13:58:22
回答 2查看 4.6K关注 0票数 12

我正在使用HtmlUnit从一个动态网页中抓取数据,它使用无限滚动来动态获取数据,就像facebook的新闻馈送一样。我使用下面的句子来模拟向下滚动事件:

代码语言:javascript
复制
webclient.setJavaScriptEnabled(true);
webclient.setAjaxController(new NicelyResynchronizingAjaxController());
ScriptResult sr=myHtmlPage.executeJavaScript("window.scrollBy(0,600)");
webclient.waitForBackgroundJavaScript(10000);
myHtmlPage=(HtmlPage)sr.getNewPage();

但是看起来myHtmlPage和之前的一样,也就是说,在myHtmlPage中没有附加新的数据,因此我只能抓取网页上的前几个数据。谢谢你的帮忙!

EN

回答 2

Stack Overflow用户

发布于 2013-05-01 23:40:10

我也在找同样的东西。我只能发现它不是滚动事件(90%确定)。JS上有一个link,它负责加载页面,也许可以帮助你。

票数 0
EN

Stack Overflow用户

发布于 2014-07-08 14:37:26

我也遇到过类似的问题,在滚动页面的过程中内容会被加载。我用以下命令解决了这个问题:

webClient.getCurrentWindow().setInnerHeight(Integer.MAX_VALUE);

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12119610

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档