首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从谷歌搜索结果中抓取数据可以吗?

从谷歌搜索结果中抓取数据可以吗?
EN

Stack Overflow用户
提问于 2014-03-26 18:07:25
回答 3查看 118.7K关注 0票数 68

我想使用curl从Google获取结果,以检测潜在的重复内容。被谷歌封杀的风险高吗?

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2014-03-26 18:21:32

当你超过一定数量的请求时,谷歌最终会屏蔽你的IP。

票数 58
EN

Stack Overflow用户

发布于 2014-03-28 10:35:06

谷歌在他们的TOS中不允许自动访问,所以如果你接受他们的条款,你就会破坏他们的条款。

话虽如此,据我所知,谷歌没有对刮刀提起诉讼。甚至连微软都没能赶上谷歌,他们的搜索引擎必应也是用谷歌的。They got caught in 2011 red handed :)

有两种方法可以抓取谷歌搜索结果:

1)使用他们的接口

2020更新:谷歌(再次)重新推荐以前的API,并有新的价格和新的限制。现在(https://developers.google.com/custom-search/v1/overview)您每天最多可以以每月1500美元的价格查询10k个结果,这是不允许的,并且结果不是它们在常规搜索中显示的结果。

  • 你每小时可以发出大约40个请求,你会受到他们给你的限制,如果你想要跟踪排名位置或一个真正的用户会看到什么,这并不是真正有用的。这是你不允许收集的东西。

  • 如果你想要更多的接口请求,你需要支付。

  • 每小时60次请求每年的费用为2000美元,更多的查询需要定制交易。

2)抓取正常结果页

  • 来了,这是棘手的部分。可以抓取正常的结果页。谷歌不允许这样做。
  • 如果你以高于每小时8次(从15次更新)的速度抓取关键字请求,你就有被检测到的风险,高于10次/小时(从20次更新)会让你在my experience.
  • By上被屏蔽,使用多个IP你可以提高速度,所以使用100个IP地址,你可以每小时抓取多达1000次请求。(每天24k) (updated)
  • There是一个在http://scraping.compunect.com用PHP编写的开源搜索引擎搜索器,它允许可靠地抓取谷歌,正确地解析结果,并管理IP地址,延迟等。所以如果你可以使用PHP,这是一个很好的入门,否则代码将仍然是有用的,以了解它是如何做到的。

3)或者使用抓取服务(更新版)

  • 最近我的一个客户有一个巨大的搜索引擎抓取需求,但它不是‘持续’,它更像是每月一次巨大的更新。

在这种情况下,我找不到一个“经济”的自制解决方案。

我使用的是http://scraping.services的服务。他们还提供开源代码,到目前为止运行良好(在refreshes)

  • The期间每小时数千个结果页)缺点是这样的服务意味着您的解决方案“绑定”到一个专业供应商,优点是它比我评估的其他选项便宜得多(在我们的情况下也更快)

  • 减少对一家公司的依赖的一个选择是同时使用两种方法。使用抓取服务作为主要数据源,并在需要时回退到基于代理的解决方案,如2)中所述。
票数 132
EN

Stack Overflow用户

发布于 2017-06-18 05:08:21

谷歌靠抓取world...so的网站而蓬勃发展,如果这是“如此非法”,那么即使是谷歌也无法幸免于..of课程其他答案提到的减轻谷歌IP屏蔽的方法。另一种避免验证码的方法是在随机时间抓取(尝试) ..Moreover,我有一种感觉,如果我们提供新奇的或一些重要的数据处理,那么听起来很好,至少对me...if来说,我们只是复制一个网站。或阻碍其业务/品牌在某些way...then它是不好的,应该是avoided..on在它的顶部all...if你是一个初创公司,那么没有人会反对你,因为没有好处..但是,如果你的整个前提是刮刮,即使你有资金,那么你应该考虑更复杂的ways...alternative APIs..eventually..Also,谷歌一直在为它的API释放(或降低)字段,所以你现在想要丢弃的可能是在新的Google API发布的路线图中。

票数 13
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/22657548

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档