我试图在此链接上搜集所有文档的详细信息。
我面临的问题是,这个站点是使用ASP.NET创建的,而且Viewstates不是我直接访问数据的对象,我尝试了beautifulSoup、Scrapy和Selenium的混合方式,但都没有效果。该数据包含12782个文档,我需要从页面中提取这些文档的pdf下载链接,该链接将从上述页面返回的结果的每个条目中重定向。
这个站点也有一个API 这里,但是这里的问题是它只在任何给定的时间点返回2000个数据点,所以~12k数据点是不可能的。
有人能帮我做以下任何一件事吗?
理想情况下,python中的解决方案是很棒的,但是如果您可以帮助我获得一个包含所有链接的csv文件,这也是可行的。提前感谢!
发布于 2021-01-16 06:55:34
最后,我通过使用位于这里的请求功能解决了这个问题。
它接受了一个特定的查询和我的电子邮件地址,并向我发送了我需要的全部数据转储。从数据转储,我可以使用所有的pdf链接。
https://stackoverflow.com/questions/65744037
复制相似问题