文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么这个url会引发带有httplib2和urllib2的BadStatusLine？

问为什么这个url会引发带有httplib2和urllib2的BadStatusLine？
EN

Stack Overflow用户

提问于 2012-02-14 02:10:18

回答 4查看 16.9K关注 0票数 8

使用httplib2和urllib2，我试图从这个url中获取页面，但它们都不起作用，最终出现了这个异常。

content = conn.request(uri="http://www.zdnet.co.kr/news/news_print.asp?artice_id=20110727092902")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/lib/python2.7/dist-packages/httplib2/__init__.py", line 1129, in request
    (response, content) = self._request(conn, authority, uri, request_uri, method, body, headers, redirections, cachekey)
  File "/usr/lib/python2.7/dist-packages/httplib2/__init__.py", line 901, in _request
    (response, content) = self._conn_request(conn, request_uri, method, body, headers)
  File "/usr/lib/python2.7/dist-packages/httplib2/__init__.py", line 871, in _conn_request
    response = conn.getresponse()
  File "/usr/lib/python2.7/httplib.py", line 1027, in getresponse
    response.begin()
  File "/usr/lib/python2.7/httplib.py", line 407, in begin
    version, status, reason = self._read_status()
  File "/usr/lib/python2.7/httplib.py", line 371, in _read_status
    raise BadStatusLine(line)

HTTP报头是这样的

http://www.zdnet.co.kr/news/news_print.asp?artice_id=20110727092902

GET /news/news_print.asp?artice_id=20110727092902 HTTP/1.1
Host: www.zdnet.co.kr
User-Agent: Mozilla/5.0 (Windows NT 5.1; rv:10.0.1) Gecko/20100101 Firefox/10.0.1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: ko-kr,ko;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding: gzip, deflate
Connection: keep-alive
Cookie: RMID=7d83495d4f336fe0; __utma=37206251.1552605885.1328771258.1328771258.1329070845.2; __utmz=37206251.1328771258.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); ASPSESSIONIDCSQCQTDD=BCLEHPPDEPHEBJDLCFNDMKDN; __utmc=37206251; ASPSESSIONIDSSQCQQCB=MJPLMOJAFPDFCLONCANBIKHN; _EXEN=2
X-FireLogger: 1.2

HTTP/1.1 200 OK
Date: Mon, 13 Feb 2012 18:02:56 GMT
Content-Length: 19158
Content-Type: text/html;charset=UTF-8; Charset=UTF-8
Set-Cookie: ASPSESSIONIDSQSDQRDB=NGAIFHKAGDIOGEMANAOLLKKF; path=/
Cache-Control: private

有什么线索吗？

httplib2

python

urllib2

回答 4

Stack Overflow用户

回答已采纳

发布于 2012-02-14 02:38:57

这对我来说很好：

import urllib2

opener = urllib2.build_opener()

headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 5.1; rv:10.0.1) Gecko/20100101 Firefox/10.0.1',
}

opener.addheaders = headers.items()
response = opener.open("http://www.zdnet.co.kr/news/news_print.asp?artice_id=20110727092902")

print response.headers
print response.read()

网站将丢弃所有没有User-Agent字符串的请求。

票数 4

Stack Overflow用户

发布于 2013-08-15 21:33:58

对于所有在安装httplib2 0.8后遇到类似问题的人：

0.8版有一个与HTTP keep-alive相关的连接处理的回归。请参阅错误报告：https://code.google.com/p/httplib2/issues/detail?id=250

这个问题有一个修复，但到目前为止还没有发布。在此之前，请使用httplib2 0.7.7。

票数 4

Stack Overflow用户

发布于 2013-04-14 14:03:45

在我的代码中，当使用

    from urllib2 import urlopen  
    content = urlopen(page).read()

此时将出现异常。但是，当我使用

    import urllib  
    content = urllib.urlopen(page).read()

一切都很好。也许这会对你有帮助。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/9265616

复制

相似问题

问为什么这个url会引发带有httplib2和urllib2的BadStatusLine？
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么这个url会引发带有httplib2和urllib2的BadStatusLine？EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么这个url会引发带有httplib2和urllib2的BadStatusLine？
EN