文章/答案/技术大牛

发布

社区首页 >问答首页 >基于爬行器的数据抽取

问基于爬行器的数据抽取
EN

Data Science用户

提问于 2021-09-26 02:13:11

回答 2查看 93关注 0票数 1

我有一个相当简单的数据抓取任务，但我对网络抓取知识是有限的。蒙特利尔说，我有一个excel文件，其中包含500个城市的名字，我想找到它们与一个固定城市的距离。我找到了这个网站，它给出了所需的距离(以公里和英里为单位)。

对于这500个城市中的每一个，我想读取excel文件中的名称，在" to“框中输入名称，将”从“字段设置为”蒙特利尔“，按下”查找“按钮(或Enter)，提取以km为单位的距离，并将结果存储在向量中。

在Python，R，甚至是在线服务中，有什么源代码可以引导您完成这些步骤吗？

web-scraping

information-extraction

crawling

回答 2

Data Science用户

回答已采纳

发布于 2021-09-26 06:57:45

我认为没有几种不同的方法来处理这样的任务。您可以尝试使用熊猫创建python脚本，例如提取城市名称，然后使用硒导航，最后将结果保存到使用熊猫的文件中。

为此，您需要一个基本的HTML理解，以找到需要处理的HTML元素，以便将数据插入表单并在每个城市插入后收集结果。

下面是一个来源解释了使用Selenium查找元素的基础知识

票数 0

Data Science用户

发布于 2021-09-27 14:26:15

最好的现代书籍之一是移动网络客户端，由brian编写，因为你需要知道的不仅仅是如何获取网页。您需要知道如何在页面上找到这些信息，除了HTTP头和身份验证之外，Mojo还非常支持CSS选择器。

确保您阅读了第一章“对服务器很好”一节。一个机器人运行疯狂是一个很好的方式被禁止从一个网站。

第二种选择是查看是否有一个包含所有数据的页面，这样您就可以避免爬行和解析。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/102487

复制

相似问题

问基于爬行器的数据抽取
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于爬行器的数据抽取EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于爬行器的数据抽取
EN