文章/答案/技术大牛

发布

社区首页 >问答首页 >如何抓取托管在其他国家/地区服务器上的网站？

问如何抓取托管在其他国家/地区服务器上的网站？
EN

Stack Overflow用户

提问于 2020-12-20 04:18:36

回答 2查看 107关注 0票数 0

我正在创建一个使用python (beautifulsoup4)的网络抓取器。我想获取" hackerearth“网站的内容，但由于我在heroku (美国服务器)上托管了我的网络爬虫，所以它是在污染美国版本的hackerearth，而不是基于我的国家的版本。所以我想获取基于我的国家的网站版本。

url = "https://www.hackerearth.com/challenges/"
r = requests.get(url)

heroku

web-scraping

beautifulsoup

proxy

python-3.x

回答 2

Stack Overflow用户

发布于 2020-12-20 04:31:09

网站/网络服务器通过标头(例如Content-Language、Accept-Language)或客户端的IP地址来检测您(或您的机器人)的语言/国家

Header可以很容易地被faked。为了伪造客户的IP地址，你需要一个这个国家的代理。

票数 0

Stack Overflow用户

发布于 2020-12-20 04:33:13

您应该添加编辑后的cookie，如下所示。

cookies ={'aep_usuc_f':'region=US&site=glo&b_locale=en_US&c_tp=USD'}
url = "https://www.hackerearth.com/challenges/"
s = requests.Session()
r = s.get(url, cookies=cookies)

让我知道结果。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65374060

复制

相似问题

问如何抓取托管在其他国家/地区服务器上的网站？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何抓取托管在其他国家/地区服务器上的网站？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何抓取托管在其他国家/地区服务器上的网站？
EN