我在该公司工作,我的任务之一是扫描某些招标门户网站的相关机会,并将其与我在excel中的分发列表共享。这不是一项困难的任务,但却让人精疲力竭,特别是他们给我带来的其他100件事情。因此,我决定应用python来解决我的痛苦,并为我的收获提供机会。我从简单的抓取开始,但我意识到我需要更好的东西,比如机器人或基于智能selenium的代码。问题:手动搜索和从网站收集信息(搜索、点击、下载文件、发送)自动化网站抓取的子问题-凭据代码背景-很少根据手头的问题从不同的平台学习(主要是乏味的),主要是python和数据科学相关课程
所需的帮助-建议的方式,框架,例子,使用python自动网页浏览,这样我就可以收集所有的点击信息(使用excel的数据收集是基本的,不能访问数据库,但是,更复杂的想法是受欢迎的)
PS。打两份工并试图养家糊口,同时寻找其他职业选择,但我对业务的专注和关心占用了我的时间,因为我不想成为一个麻烦制造者,因此当我试图向管理层(这是老派)寻求支持时,时间流逝了。
请提前感谢您的超级聪明的建议!非常感谢
发布于 2019-10-06 11:50:26
BeautifulSoup不能胜任这项工作,因为它只是一个解析器,而不是web浏览器。
MechanicalSoup可能是你的一个选择,因为你的网站并不是太复杂,也不需要执行Javascript就能发挥作用。
Selenium本质上是你最喜欢的网络浏览器的机器人版本。
我选择Selenium还是MechanicalSoup取决于我的目标数据是否需要执行Javascript,无论是在登录期间还是为了获取数据本身。
让我们回顾一下您的需求:
这真的取决于你想要做什么的具体细节。
编辑:这是我对MechanicalSoup所做的一个例子: https://github.com/MattGaiser/mindsumo-scraper
它是一个程序,它登录到一个网站,指向一个特定的页面,抓取该页面以及它链接到的其他相关页面,并从这些抓取中生成我赢得的挑战的CSV,我赢得的分数,以及挑战图像的链接(通常具有洞察力)。
https://stackoverflow.com/questions/58253936
复制相似问题