我有一个相当简单的数据抓取任务,但我对网络抓取知识是有限的。蒙特利尔说,我有一个excel文件,其中包含500个城市的名字,我想找到它们与一个固定城市的距离。我找到了这个网站,它给出了所需的距离(以公里和英里为单位)。
对于这500个城市中的每一个,我想读取excel文件中的名称,在" to“框中输入名称,将”从“字段设置为”蒙特利尔“,按下”查找“按钮(或Enter),提取以km为单位的距离,并将结果存储在向量中。
在Python,R,甚至是在线服务中,有什么源代码可以引导您完成这些步骤吗?
发布于 2021-09-26 06:57:45
发布于 2021-09-27 14:26:15
最好的现代书籍之一是移动网络客户端,由brian编写,因为你需要知道的不仅仅是如何获取网页。您需要知道如何在页面上找到这些信息,除了HTTP头和身份验证之外,Mojo还非常支持CSS选择器。
确保您阅读了第一章“对服务器很好”一节。一个机器人运行疯狂是一个很好的方式被禁止从一个网站。
第二种选择是查看是否有一个包含所有数据的页面,这样您就可以避免爬行和解析。
https://datascience.stackexchange.com/questions/102487
复制相似问题