发布于 2022-01-10 18:43:07
对于这个特定的网页,页面是从一个可预测的网址提供的:
这是非常正常的,我甚至不会为这个问题从页面中提取它:我只需要自己生成url,为每个url做一个requests.get(),并将它们与PyPdf2连接在一起。
更普遍的问题是:我是怎么知道这个网址的?看看浏览器的devtools:

一般方法
对于这类问题,基本上有两种解决办法:
有时候你很幸运,并且有一个真正的api来帮助你做到这一点。在查看这样的公共档案数据时,这是很常见的(在法国,BNF的apis很好,但是我不知道什么,如果有的话,将是意大利的等价物)。
https://stackoverflow.com/questions/70657190
复制相似问题