我想使用curl从Google获取结果,以检测潜在的重复内容。被谷歌封杀的风险高吗?
发布于 2014-03-26 18:21:32
当你超过一定数量的请求时,谷歌最终会屏蔽你的IP。
发布于 2014-03-28 10:35:06
谷歌在他们的TOS中不允许自动访问,所以如果你接受他们的条款,你就会破坏他们的条款。
话虽如此,据我所知,谷歌没有对刮刀提起诉讼。甚至连微软都没能赶上谷歌,他们的搜索引擎必应也是用谷歌的。They got caught in 2011 red handed :)
有两种方法可以抓取谷歌搜索结果:
1)使用他们的接口
2020更新:谷歌(再次)重新推荐以前的API,并有新的价格和新的限制。现在(https://developers.google.com/custom-search/v1/overview)您每天最多可以以每月1500美元的价格查询10k个结果,这是不允许的,并且结果不是它们在常规搜索中显示的结果。
2)抓取正常结果页
3)或者使用抓取服务(更新版)
在这种情况下,我找不到一个“经济”的自制解决方案。
我使用的是http://scraping.services的服务。他们还提供开源代码,到目前为止运行良好(在refreshes)
发布于 2017-06-18 05:08:21
谷歌靠抓取world...so的网站而蓬勃发展,如果这是“如此非法”,那么即使是谷歌也无法幸免于..of课程其他答案提到的减轻谷歌IP屏蔽的方法。另一种避免验证码的方法是在随机时间抓取(尝试) ..Moreover,我有一种感觉,如果我们提供新奇的或一些重要的数据处理,那么听起来很好,至少对me...if来说,我们只是复制一个网站。或阻碍其业务/品牌在某些way...then它是不好的,应该是avoided..on在它的顶部all...if你是一个初创公司,那么没有人会反对你,因为没有好处..但是,如果你的整个前提是刮刮,即使你有资金,那么你应该考虑更复杂的ways...alternative APIs..eventually..Also,谷歌一直在为它的API释放(或降低)字段,所以你现在想要丢弃的可能是在新的Google API发布的路线图中。
https://stackoverflow.com/questions/22657548
复制相似问题