文章/答案/技术大牛

发布

社区首页 >问答首页 >从谷歌搜索结果中抓取数据可以吗？

问从谷歌搜索结果中抓取数据可以吗？
EN

Stack Overflow用户

提问于 2014-03-26 18:07:25

回答 3查看 118.7K关注 0票数 68

我想使用curl从Google获取结果，以检测潜在的重复内容。被谷歌封杀的风险高吗？

web-scraping

回答 3

Stack Overflow用户

回答已采纳

发布于 2014-03-26 18:21:32

当你超过一定数量的请求时，谷歌最终会屏蔽你的IP。

票数 58

Stack Overflow用户

发布于 2014-03-28 10:35:06

谷歌在他们的TOS中不允许自动访问，所以如果你接受他们的条款，你就会破坏他们的条款。

话虽如此，据我所知，谷歌没有对刮刀提起诉讼。甚至连微软都没能赶上谷歌，他们的搜索引擎必应也是用谷歌的。They got caught in 2011 red handed :)

有两种方法可以抓取谷歌搜索结果：

1)使用他们的接口

2020更新:谷歌(再次)重新推荐以前的API，并有新的价格和新的限制。现在(https://developers.google.com/custom-search/v1/overview)您每天最多可以以每月1500美元的价格查询10k个结果，这是不允许的，并且结果不是它们在常规搜索中显示的结果。

你每小时可以发出大约40个请求，你会受到他们给你的限制，如果你想要跟踪排名位置或一个真正的用户会看到什么，这并不是真正有用的。这是你不允许收集的东西。

如果你想要更多的接口请求，你需要支付。

每小时60次请求每年的费用为2000美元，更多的查询需要定制交易。

2)抓取正常结果页

来了，这是棘手的部分。可以抓取正常的结果页。谷歌不允许这样做。
如果你以高于每小时8次(从15次更新)的速度抓取关键字请求，你就有被检测到的风险，高于10次/小时(从20次更新)会让你在my experience.
By上被屏蔽，使用多个IP你可以提高速度，所以使用100个IP地址，你可以每小时抓取多达1000次请求。(每天24k) (updated)
There是一个在http://scraping.compunect.com用PHP编写的开源搜索引擎搜索器，它允许可靠地抓取谷歌，正确地解析结果，并管理IP地址，延迟等。所以如果你可以使用PHP，这是一个很好的入门，否则代码将仍然是有用的，以了解它是如何做到的。

3)或者使用抓取服务(更新版)

最近我的一个客户有一个巨大的搜索引擎抓取需求，但它不是‘持续’，它更像是每月一次巨大的更新。

在这种情况下，我找不到一个“经济”的自制解决方案。

我使用的是http://scraping.services的服务。他们还提供开源代码，到目前为止运行良好(在refreshes)

The期间每小时数千个结果页)缺点是这样的服务意味着您的解决方案“绑定”到一个专业供应商，优点是它比我评估的其他选项便宜得多(在我们的情况下也更快)

减少对一家公司的依赖的一个选择是同时使用两种方法。使用抓取服务作为主要数据源，并在需要时回退到基于代理的解决方案，如2)中所述。

票数 132

Stack Overflow用户

发布于 2017-06-18 05:08:21

谷歌靠抓取world...so的网站而蓬勃发展，如果这是“如此非法”，那么即使是谷歌也无法幸免于..of课程其他答案提到的减轻谷歌IP屏蔽的方法。另一种避免验证码的方法是在随机时间抓取(尝试) ..Moreover，我有一种感觉，如果我们提供新奇的或一些重要的数据处理，那么听起来很好，至少对me...if来说，我们只是复制一个网站。或阻碍其业务/品牌在某些way...then它是不好的，应该是avoided..on在它的顶部all...if你是一个初创公司，那么没有人会反对你，因为没有好处..但是，如果你的整个前提是刮刮，即使你有资金，那么你应该考虑更复杂的ways...alternative APIs..eventually..Also，谷歌一直在为它的API释放(或降低)字段，所以你现在想要丢弃的可能是在新的Google API发布的路线图中。

票数 13

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/22657548

复制

相似问题

问从谷歌搜索结果中抓取数据可以吗？
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从谷歌搜索结果中抓取数据可以吗？EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从谷歌搜索结果中抓取数据可以吗？
EN