首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >抓取动态数据

抓取动态数据
EN

Stack Overflow用户
提问于 2013-10-18 05:36:29
回答 2查看 426关注 0票数 1

我正在抓取ask.fm上的资料,准备回答一个研究问题。问题是,只有最新的最新问题是可查看的,我必须单击“查看更多”才能查看下15个问题。

点击view more的源代码如下所示:

代码语言:javascript
复制
<input class="submit-button-more submit-button-more-active" name="commit" onclick="return Forms.More.allowSubmit(this)" type="submit" value="View more" />

在抓取它之前调用它4次的简单方法是什么?我想在网站上最新的60个帖子。Python更可取。

EN

回答 2

Stack Overflow用户

发布于 2018-10-07 16:47:59

不使用无头浏览器的

  1. 打开chrome调试器工具->网络选项卡。
  2. 现在点击查看更多,当你点击查看更多时,在网络对话框中触发的请求。
  3. 在大多数情况下,数据将从外部API加载,因此检查对API的请求是get还是post请求,以及它的响应类型。
  4. 可能有一个限制或任何类似的查询参数,可以传递到该url,以限制响应对象的数量。在你的例子中,它应该是15。
  5. 会尝试从你的脚本向同一个URL发出请求,将限制增加到60。但是,如果这对您不起作用,请尝试以下步骤。

使用无头浏览器

尝试使用加载动态内容的无头浏览器,你有方法向下滚动,点击etc available.

  • Examples的无头浏览器有Selenium,
  1. ,PhantomJS,SlimmerJS等
票数 1
EN

Stack Overflow用户

发布于 2013-10-18 05:45:26

您可能会使用selenium浏览到该网站,然后单击按钮/链接几次。你可以在这里得到它:

或者你也可以使用mechanize:

  • http://wwwsearch.sourceforge.net/mechanize/

我也听说过关于斜纹的好东西,但我自己从来没有用过它:

  • http://twill.idyll.org/
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19437782

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档