文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么我不能通过BeautifulSoup抓取亚马逊？

问为什么我不能通过BeautifulSoup抓取亚马逊？
EN

Stack Overflow用户

提问于 2014-05-09 09:32:55

回答 4查看 8.2K关注 0票数 0

下面是我的python代码：

import urllib2
from bs4 import BeautifulSoup

page = urllib2.urlopen("http://www.amazon.com/")
soup = BeautifulSoup(page)
print soup

它适用于google.com和许多其他网站，但不适用于amazon.com。

我可以在浏览器中打开amazon.com，但得到的“汤”仍然是空的。

此外，我发现它也不能从appannie.com抓取。但是，代码返回的不是none，而是一个错误：

HTTPError: HTTP Error 503: Service Temporarily Unavailable

因此，我怀疑亚马逊和App Annie是否会阻止抓取。

python

beautifulsoup

amazon

回答 4

Stack Overflow用户

发布于 2016-11-01 23:44:56

添加一个头，然后它就可以工作了。

from bs4 import BeautifulSoup
import requests
url = "http://www.amazon.com/"

# add header
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'}
r = requests.get(url, headers=headers)
soup = BeautifulSoup(r.content, "lxml")
print soup

票数 4

Stack Overflow用户

发布于 2014-05-09 13:08:14

您可以尝试这样做：

import urllib2
from bs4 import BeautifulSoup

page = urllib2.urlopen("http://www.amazon.com/")
soup = BeautifulSoup(page)
print soup

在python中，任意文本称为字符串，必须用引号(“")括起来。

票数 2

Stack Overflow用户

发布于 2020-06-25 20:47:57

我刚刚遇到这个问题，发现设置任何用户代理都是可行的。你不需要在你的用户代理上撒谎。

response = HTTParty.get @url, headers: {'User-Agent' => 'Httparty'}

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/23555283

复制

相似问题

问为什么我不能通过BeautifulSoup抓取亚马逊？
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么我不能通过BeautifulSoup抓取亚马逊？EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么我不能通过BeautifulSoup抓取亚马逊？
EN