首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于爬行器的数据抽取

基于爬行器的数据抽取
EN

Data Science用户
提问于 2021-09-26 02:13:11
回答 2查看 93关注 0票数 1

我有一个相当简单的数据抓取任务,但我对网络抓取知识是有限的。蒙特利尔说,我有一个excel文件,其中包含500个城市的名字,我想找到它们与一个固定城市的距离。我找到了这个网站,它给出了所需的距离(以公里和英里为单位)。

对于这500个城市中的每一个,我想读取excel文件中的名称,在" to“框中输入名称,将”从“字段设置为”蒙特利尔“,按下”查找“按钮(或Enter),提取以km为单位的距离,并将结果存储在向量中。

在Python,R,甚至是在线服务中,有什么源代码可以引导您完成这些步骤吗?

EN

回答 2

Data Science用户

回答已采纳

发布于 2021-09-26 06:57:45

我认为没有几种不同的方法来处理这样的任务。您可以尝试使用熊猫创建python脚本,例如提取城市名称,然后使用导航,最后将结果保存到使用熊猫的文件中。

为此,您需要一个基本的HTML理解,以找到需要处理的HTML元素,以便将数据插入表单并在每个城市插入后收集结果。

下面是一个来源解释了使用Selenium查找元素的基础知识

票数 0
EN

Data Science用户

发布于 2021-09-27 14:26:15

最好的现代书籍之一是移动网络客户端,由brian编写,因为你需要知道的不仅仅是如何获取网页。您需要知道如何在页面上找到这些信息,除了HTTP头和身份验证之外,Mojo还非常支持CSS选择器。

确保您阅读了第一章“对服务器很好”一节。一个机器人运行疯狂是一个很好的方式被禁止从一个网站。

第二种选择是查看是否有一个包含所有数据的页面,这样您就可以避免爬行和解析。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/102487

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档