文章/答案/技术大牛

发布

社区首页 >问答首页 >Kickstarter擦拭文本

问Kickstarter擦拭文本
EN

Stack Overflow用户

提问于 2022-01-26 10:13:39

回答 1查看 205关注 0票数 -1

我试着收集的故事，并对Kickstarter的数据进行风险分析。我使用API的方法如下：

How to scrape all the image urls from a Kickstarter webpage?

但是这些天我发现它返回了“无”的结果。我无法得到任何结果。

Kickstarter中有什么变化吗。我试图请求网络，但我发现它增加了“人或机器人”块。请帮帮忙。

web-scraping

web-crawler

回答 1

Stack Overflow用户

发布于 2022-01-26 10:30:39

注意，使用API和抓取网站是不同的事情。因此，您似乎没有使用API。这一点很重要，因为API是专门为允许您获取数据而设计的，并且不会试图阻止您获取数据；而通常情况下，网站会试图阻止您在增加数据账单时刮取数据，但它不是“真正的用户”...often时间，这将违背他们的服务条款。

但是在没有API的情况下，这个网站正在积极地阻止你刮，但是你仍然想继续.那么技术上你还是可以做到的。

在你的例子中，你提到看到了一条“人或机器人”的信息。这意味着他们有时或总是表现出"Captcha“。您可以通过使用"Captcha解决方案“服务来解决这个问题。基本上，公司已经建立了一大群低收入自由职业者整天点击“我是一个人”。只要搜索谷歌，你就会发现很多服务都在提供。

我发现其中一些服务非常好，而且通常可以在不到30秒内可靠地解决上限问题。它们中的大多数将以多种语言(包括python)提供示例API代码，这样您就可以轻松地集成代码。

基本上，您的代码将如下所示：

访问您希望爬行的
检查，如果您按下captcha
，将captcha数据发送到解决服务API
，将captcha结果接收到网页
授予对该网页的访问权限，并开始抓取H 210G 211

注意，您应该确保您的web刮刀正在使用cookie，以便您可以在整个抓取过程中维护您的会话，这将有希望将您点击的Captchas的数量降到最低。

您还可能需要使用代理来更改您的IP地址，这样您就不会总是从同一个IP中抓取。

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70861800

复制

相似问题

问Kickstarter擦拭文本
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Kickstarter擦拭文本EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Kickstarter擦拭文本
EN