下面是我的python代码:
import urllib2
from bs4 import BeautifulSoup
page = urllib2.urlopen("http://www.amazon.com/")
soup = BeautifulSoup(page)
print soup它适用于google.com和许多其他网站,但不适用于amazon.com。
我可以在浏览器中打开amazon.com,但得到的“汤”仍然是空的。
此外,我发现它也不能从appannie.com抓取。但是,代码返回的不是none,而是一个错误:
HTTPError: HTTP Error 503: Service Temporarily Unavailable 因此,我怀疑亚马逊和App Annie是否会阻止抓取。
发布于 2016-11-01 23:44:56
添加一个头,然后它就可以工作了。
from bs4 import BeautifulSoup
import requests
url = "http://www.amazon.com/"
# add header
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'}
r = requests.get(url, headers=headers)
soup = BeautifulSoup(r.content, "lxml")
print soup发布于 2014-05-09 13:08:14
您可以尝试这样做:
import urllib2
from bs4 import BeautifulSoup
page = urllib2.urlopen("http://www.amazon.com/")
soup = BeautifulSoup(page)
print soup在python中,任意文本称为字符串,必须用引号(“")括起来。
发布于 2020-06-25 20:47:57
我刚刚遇到这个问题,发现设置任何用户代理都是可行的。你不需要在你的用户代理上撒谎。
response = HTTParty.get @url, headers: {'User-Agent' => 'Httparty'}https://stackoverflow.com/questions/23555283
复制相似问题