我试着收集的故事,并对Kickstarter的数据进行风险分析。我使用API的方法如下:
How to scrape all the image urls from a Kickstarter webpage?
但是这些天我发现它返回了“无”的结果。我无法得到任何结果。
Kickstarter中有什么变化吗。我试图请求网络,但我发现它增加了“人或机器人”块。请帮帮忙。
发布于 2022-01-26 10:30:39
注意,使用API和抓取网站是不同的事情。因此,您似乎没有使用API。这一点很重要,因为API是专门为允许您获取数据而设计的,并且不会试图阻止您获取数据;而通常情况下,网站会试图阻止您在增加数据账单时刮取数据,但它不是“真正的用户”...often时间,这将违背他们的服务条款。
但是在没有API的情况下,这个网站正在积极地阻止你刮,但是你仍然想继续.那么技术上你还是可以做到的。
在你的例子中,你提到看到了一条“人或机器人”的信息。这意味着他们有时或总是表现出"Captcha“。您可以通过使用"Captcha解决方案“服务来解决这个问题。基本上,公司已经建立了一大群低收入自由职业者整天点击“我是一个人”。只要搜索谷歌,你就会发现很多服务都在提供。
我发现其中一些服务非常好,而且通常可以在不到30秒内可靠地解决上限问题。它们中的大多数将以多种语言(包括python)提供示例API代码,这样您就可以轻松地集成代码。
基本上,您的代码将如下所示:
H 210G 211注意,您应该确保您的web刮刀正在使用cookie,以便您可以在整个抓取过程中维护您的会话,这将有希望将您点击的Captchas的数量降到最低。
您还可能需要使用代理来更改您的IP地址,这样您就不会总是从同一个IP中抓取。
https://stackoverflow.com/questions/70861800
复制相似问题