首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于VIEWSTATES的网页数据抓取

基于VIEWSTATES的网页数据抓取
EN

Stack Overflow用户
提问于 2021-01-15 21:53:58
回答 1查看 32关注 0票数 0

我试图在此链接上搜集所有文档的详细信息。

我面临的问题是,这个站点是使用ASP.NET创建的,而且Viewstates不是我直接访问数据的对象,我尝试了beautifulSoup、Scrapy和Selenium的混合方式,但都没有效果。该数据包含12782个文档,我需要从页面中提取这些文档的pdf下载链接,该链接将从上述页面返回的结果的每个条目中重定向。

这个站点也有一个API 这里,但是这里的问题是它只在任何给定的时间点返回2000个数据点,所以~12k数据点是不可能的。

有人能帮我做以下任何一件事吗?

  • 创建一个刮板以获取pdf链接
  • 生成一个查询以从API获取所有数据。
  • 任何帮助我生成链接以获取API查询的重复关系。
  • 使用API中的requests部分将所有记录同时传递到电子邮件中。

理想情况下,python中的解决方案是很棒的,但是如果您可以帮助我获得一个包含所有链接的csv文件,这也是可行的。提前感谢!

EN

回答 1

Stack Overflow用户

发布于 2021-01-16 06:55:34

最后,我通过使用位于这里的请求功能解决了这个问题。

它接受了一个特定的查询和我的电子邮件地址,并向我发送了我需要的全部数据转储。从数据转储,我可以使用所有的pdf链接。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65744037

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档