我正在尝试从CAG网站https://cag.gov.in/en/state-accounts-report?defuat_state_id=64下载一些PDF。我只需要用于每月关键指标的PDF,所以我使用的代码是-
tabID="#tab-360"
for link in soup.select(f"{tabID} a[href$='.pdf']"):
filename=os.path.join(folder_location,link['href'].split('/')[-1])
with open(filename, 'wb') as f:
f.write(requests.get(urljoin(url,link['href'])).content)这允许我下载每月的关键指标文件,但我只需要下载从2018年3月至2022年3月Pdf文件。如何下载2018年至2022年3月的PDF。
发布于 2022-11-06 07:29:32
下面的代码帮助我获得了所有的三月文件
urllist=[]
url='https://cag.gov.in/en/state-accounts-report?defuat_state_id=79'
response=requests.get(url)
soup=BeautifulSoup(response.text,'html.parser')
for link in soup.select(f"{tabID} a[href$='.pdf']"):
urllist.append(link)
final_listMah=[]
list_year=['March, 2022','March(Pre), 2022','March(Pre), 2021','March, 2021','March(Pre), 2020','March(Pre), 2019','April, 2019']
for j in list_year:
for i in range(len(urllist)):
if (urllist[i].text==j):
print(urllist[i])
final_listMah.append(urllist[i])https://stackoverflow.com/questions/74231193
复制相似问题