我试图建立一个网络爬虫来收集来自多个投注网站的投注数据。我有一些编程经验,但我非常迷失在网页,网页抓取等世界。
我以前用过Selenium来构建“机器人”,我想我可以用它做点什么,我也读过一些教程(urllib,Beautiful Soup等)。但是所有这些教程都是非常简单的页面,而我想要的似乎有些不同(也许是JavaScript?)
例如,此页面:
https://sportsbet.io/sports/pre-live/category/kq9kajLnphopJwuwh
我怎样才能得到有赔率的事件,等等?
发布于 2016-06-21 07:21:30
我发现是一本很棒的书,它没有假设任何web抓取的经验,只假设你知道python的基础知识。
作者将带你经历一些场景,从简单的抓取一个基本的静态HTML页面一直到Javascript/Ajax驱动的站点,它们可能会有一些防止抓取的保护措施。
一般来说,这本书展示了使用Requests模块进行下载和使用BeautifulSoup模块解析html的示例。
它还提供了一个示例,说明如何让脚本使用tor来隐藏您的IP地址。
请注意,我与这本书的卖家没有任何联系;只是我发现这本书非常有用,听起来你也会的!
https://stackoverflow.com/questions/37932621
复制相似问题