文章/答案/技术大牛

发布

社区首页 >问答首页 >从受密码保护的网站中抓取PDF

问从受密码保护的网站中抓取PDF
EN

Stack Overflow用户

提问于 2020-07-22 04:26:50

回答 2查看 52关注 0票数 0

我在技术支持部门工作，目前必须手动保持我们的产品手册手动更新，定期检查是否有更新，以及是否有替换我们网络上保存的当前手册。

我想知道是否有可能建立一个小程序来快速下载供应商网站上的所有文件，并让它们自动下载并排序到这些产品的给定文件夹中，替换该文件中的当前PDF。我还必须指出，网站是密码保护的，并被分类到文件夹中。

使用Python可以做到这一点吗？我想，也许我可以每周运行一次小程序来自动更新我们的手册，这将是非常有用的(也是一种学习经验)。

抱歉，如果我没有很好地解释需求，任何问题都可以让我知道。

download

python

web-scraping

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-07-22 15:15:06

这当然是有可能的。正如另一个答案所建议的，您将希望使用诸如请求(处理HTTP请求)或Selenium (AUtomated浏览器活动)之类的库来导航整个登录。

你需要对给定页面上的链接进行排序，理想情况下，你可以使用but ( HTML解析器)来完成，但也可以使用selenium (自动化浏览器活动)来完成。你需要检验库，比如用于下载pdf的请求(以处理HTTP请求)，pdf是用于将文件夹分类到特定文件夹和替换文件的操作系统模块。

我强烈建议你仔细考虑这些步骤，但我希望这能给你一个关于图书馆的想法，你需要学习一些东西。要学习的最具挑战性的事情将是使用selenium，所以如果您可以使用请求进行登录，那就更好了。

如果你已经基本掌握了python的请求，操作系统模块和漂亮的汤库都不是很难掌握的东西。

票数 1

Stack Overflow用户

发布于 2020-07-22 04:36:48

您可以使用selenium实现浏览器自动化。这可以插入密码(尽管你是机器人的东西可能会阻止你)，然后你可以简单地通过设置默认下载位置并单击下载按钮来下载pdf。这将使浏览器将文件下载到默认下载位置。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63022562

复制

相似问题

问从受密码保护的网站中抓取PDF
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从受密码保护的网站中抓取PDFEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从受密码保护的网站中抓取PDF
EN