首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python web抓取-从哪里开始

Python web抓取-从哪里开始
EN

Stack Overflow用户
提问于 2016-06-21 06:09:15
回答 1查看 383关注 0票数 1

我试图建立一个网络爬虫来收集来自多个投注网站的投注数据。我有一些编程经验,但我非常迷失在网页,网页抓取等世界。

我以前用过Selenium来构建“机器人”,我想我可以用它做点什么,我也读过一些教程(urllib,Beautiful Soup等)。但是所有这些教程都是非常简单的页面,而我想要的似乎有些不同(也许是JavaScript?)

例如,此页面:

https://sportsbet.io/sports/pre-live/category/kq9kajLnphopJwuwh

我怎样才能得到有赔率的事件,等等?

EN

回答 1

Stack Overflow用户

发布于 2016-06-21 07:21:30

我发现是一本很棒的书,它没有假设任何web抓取的经验,只假设你知道python的基础知识。

作者将带你经历一些场景,从简单的抓取一个基本的静态HTML页面一直到Javascript/Ajax驱动的站点,它们可能会有一些防止抓取的保护措施。

一般来说,这本书展示了使用Requests模块进行下载和使用BeautifulSoup模块解析html的示例。

它还提供了一个示例,说明如何让脚本使用tor来隐藏您的IP地址。

请注意,我与这本书的卖家没有任何联系;只是我发现这本书非常有用,听起来你也会的!

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37932621

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档