文章/答案/技术大牛

发布

社区首页 >问答首页 >我需要一个指南来选择使用python进行动态web浏览的最佳方法。

问我需要一个指南来选择使用python进行动态web浏览的最佳方法。
EN

Stack Overflow用户

提问于 2019-10-06 11:12:38

回答 1查看 73关注 0票数 0

我在该公司工作，我的任务之一是扫描某些招标门户网站的相关机会，并将其与我在excel中的分发列表共享。这不是一项困难的任务，但却让人精疲力竭，特别是他们给我带来的其他100件事情。因此，我决定应用python来解决我的痛苦，并为我的收获提供机会。我从简单的抓取开始，但我意识到我需要更好的东西，比如机器人或基于智能selenium的代码。问题:手动搜索和从网站收集信息(搜索、点击、下载文件、发送)自动化网站抓取的子问题-凭据代码背景-很少根据手头的问题从不同的平台学习(主要是乏味的)，主要是python和数据科学相关课程

所需的帮助-建议的方式，框架，例子，使用python自动网页浏览，这样我就可以收集所有的点击信息(使用excel的数据收集是基本的，不能访问数据库，但是，更复杂的想法是受欢迎的)

PS。打两份工并试图养家糊口，同时寻找其他职业选择，但我对业务的专注和关心占用了我的时间，因为我不想成为一个麻烦制造者，因此当我试图向管理层(这是老派)寻求支持时，时间流逝了。

请提前感谢您的超级聪明的建议！非常感谢

python

python-3.x

selenium

web-scraping

python-requests

回答 1

Stack Overflow用户

发布于 2019-10-06 11:50:26

BeautifulSoup不能胜任这项工作，因为它只是一个解析器，而不是web浏览器。

MechanicalSoup可能是你的一个选择，因为你的网站并不是太复杂，也不需要执行Javascript就能发挥作用。

Selenium本质上是你最喜欢的网络浏览器的机器人版本。

我选择Selenium还是MechanicalSoup取决于我的目标数据是否需要执行Javascript，无论是在登录期间还是为了获取数据本身。

让我们回顾一下您的需求：

Search:可以通过get请求进行搜索吗？例如，搜索是基于URL中的变量完成的吗？用Google搜索一些东西，然后查看Google搜索的URL。你的目标网站上有没有类似的东西？如果是，则返回MechanicalSoup。如果不是，就加硒。据我所知，MechanicalSoup不能显式
Click:。如果给定了要查找的内容，它可以跟随URL(通常这已经足够好了)，但它不能单击按钮。为此，需要使用Selenium。
Download:只要不需要点击按钮，它们中的任何一个都可以做到这一点。同样，它能只遵循按钮指向的路径吗？
Send:超出了两者的作用域。尽管有大量的邮件库存在，但您需要查看其他内容。
Credentials:和Javascript都可以做到这一点，所以关键问题是登录是否依赖于Javascript。

这真的取决于你想要做什么的具体细节。

编辑:这是我对MechanicalSoup所做的一个例子： https://github.com/MattGaiser/mindsumo-scraper

它是一个程序，它登录到一个网站，指向一个特定的页面，抓取该页面以及它链接到的其他相关页面，并从这些抓取中生成我赢得的挑战的CSV，我赢得的分数，以及挑战图像的链接(通常具有洞察力)。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58253936

复制

相似问题

问我需要一个指南来选择使用python进行动态web浏览的最佳方法。
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我需要一个指南来选择使用python进行动态web浏览的最佳方法。EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我需要一个指南来选择使用python进行动态web浏览的最佳方法。
EN