首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我需要一个指南来选择使用python进行动态web浏览的最佳方法。

我需要一个指南来选择使用python进行动态web浏览的最佳方法。
EN

Stack Overflow用户
提问于 2019-10-06 11:12:38
回答 1查看 73关注 0票数 0

我在该公司工作,我的任务之一是扫描某些招标门户网站的相关机会,并将其与我在excel中的分发列表共享。这不是一项困难的任务,但却让人精疲力竭,特别是他们给我带来的其他100件事情。因此,我决定应用python来解决我的痛苦,并为我的收获提供机会。我从简单的抓取开始,但我意识到我需要更好的东西,比如机器人或基于智能selenium的代码。问题:手动搜索和从网站收集信息(搜索、点击、下载文件、发送)自动化网站抓取的子问题-凭据代码背景-很少根据手头的问题从不同的平台学习(主要是乏味的),主要是python和数据科学相关课程

所需的帮助-建议的方式,框架,例子,使用python自动网页浏览,这样我就可以收集所有的点击信息(使用excel的数据收集是基本的,不能访问数据库,但是,更复杂的想法是受欢迎的)

PS。打两份工并试图养家糊口,同时寻找其他职业选择,但我对业务的专注和关心占用了我的时间,因为我不想成为一个麻烦制造者,因此当我试图向管理层(这是老派)寻求支持时,时间流逝了。

请提前感谢您的超级聪明的建议!非常感谢

EN

回答 1

Stack Overflow用户

发布于 2019-10-06 11:50:26

BeautifulSoup不能胜任这项工作,因为它只是一个解析器,而不是web浏览器。

MechanicalSoup可能是你的一个选择,因为你的网站并不是太复杂,也不需要执行Javascript就能发挥作用。

Selenium本质上是你最喜欢的网络浏览器的机器人版本。

我选择Selenium还是MechanicalSoup取决于我的目标数据是否需要执行Javascript,无论是在登录期间还是为了获取数据本身。

让我们回顾一下您的需求:

  • Search:可以通过get请求进行搜索吗?例如,搜索是基于URL中的变量完成的吗?用Google搜索一些东西,然后查看Google搜索的URL。你的目标网站上有没有类似的东西?如果是,则返回MechanicalSoup。如果不是,就加硒。据我所知,MechanicalSoup不能显式
  • Click:。如果给定了要查找的内容,它可以跟随URL(通常这已经足够好了),但它不能单击按钮。为此,需要使用Selenium。
  • Download:只要不需要点击按钮,它们中的任何一个都可以做到这一点。同样,它能只遵循按钮指向的路径吗?
  • Send:超出了两者的作用域。尽管有大量的邮件库存在,但您需要查看其他内容。
  • Credentials:和Javascript都可以做到这一点,所以关键问题是登录是否依赖于Javascript。

这真的取决于你想要做什么的具体细节。

编辑:这是我对MechanicalSoup所做的一个例子: https://github.com/MattGaiser/mindsumo-scraper

它是一个程序,它登录到一个网站,指向一个特定的页面,抓取该页面以及它链接到的其他相关页面,并从这些抓取中生成我赢得的挑战的CSV,我赢得的分数,以及挑战图像的链接(通常具有洞察力)。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58253936

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档