文章/答案/技术大牛

发布

社区首页 >问答首页 >基于VIEWSTATES的网页数据抓取

问基于VIEWSTATES的网页数据抓取
EN

Stack Overflow用户

提问于 2021-01-15 21:53:58

回答 1查看 32关注 0票数 0

我试图在此链接上搜集所有文档的详细信息。

我面临的问题是，这个站点是使用ASP.NET创建的，而且Viewstates不是我直接访问数据的对象，我尝试了beautifulSoup、Scrapy和Selenium的混合方式，但都没有效果。该数据包含12782个文档，我需要从页面中提取这些文档的pdf下载链接，该链接将从上述页面返回的结果的每个条目中重定向。

这个站点也有一个API 这里，但是这里的问题是它只在任何给定的时间点返回2000个数据点，所以~12k数据点是不可能的。

有人能帮我做以下任何一件事吗？

创建一个刮板以获取pdf链接
生成一个查询以从API获取所有数据。
任何帮助我生成链接以获取API查询的重复关系。
使用API中的requests部分将所有记录同时传递到电子邮件中。

理想情况下，python中的解决方案是很棒的，但是如果您可以帮助我获得一个包含所有链接的csv文件，这也是可行的。提前感谢！

asp.net

api

web-scraping

python

回答 1

Stack Overflow用户

发布于 2021-01-16 06:55:34

最后，我通过使用位于这里的请求功能解决了这个问题。

它接受了一个特定的查询和我的电子邮件地址，并向我发送了我需要的全部数据转储。从数据转储，我可以使用所有的pdf链接。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65744037

复制

相似问题

问基于VIEWSTATES的网页数据抓取
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于VIEWSTATES的网页数据抓取EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于VIEWSTATES的网页数据抓取
EN