import requests
from bs4 import BeautifulSoup
web = requests.get("http://minewind.com/forums", allow_redirects=False)
mems = BeautifulSoup(web.text)
mems.prettify()
for links in mems.find_all('a'):
print (links.get("href"))我试图从某个网页上获取链接,但无论我做什么,它都不会从/forums抓取,而只从minewind.com主页抓取。不管我要拿哪个网址。我正在使用一个类似于urllib的requests py库,我已经在urllib中尝试了这一点,并且它做了一些类似的事情。
发布于 2014-10-17 20:40:38
您要访问的URL声明它不存在
>>> import requests
>>> r = requests.get("http://minewind.com/forums")
>>> r.status_code
404这可能是由于用户代理检测;如果我将user头部设置为类似于真正的浏览器的内容,则确实会得到响应:
>>> r = requests.get("http://minewind.com/forums",
... headers={'User-Agent': 'Mozilla'})
>>> r.status_code
200
>>> r.url
u'http://minewind.com/forums/'
>>> r.history
(<Response [301]>,)您可以看到,您被重定向到一个URL,在/的末尾。
https://stackoverflow.com/questions/26433117
复制相似问题