首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何抓取wordpress博客?

如何抓取wordpress博客?
EN

Stack Overflow用户
提问于 2011-02-27 21:43:36
回答 1查看 1.3K关注 0票数 1

我写了一个c程序来抓取博客。它工作得很好,直到它遇到这个博客: www.ipujia.com。我发送HTTP请求:

GET http://www.ipujia.com/ HTTP/1.0

到该网站,并得到如下响应:

代码语言:javascript
复制
HTTP/1.1 301 Moved Permanently
Date: Sun, 27 Feb 2011 13:15:26 GMT
Server: Apache/2.2.16 (Unix) mod_ssl/2.2.16 OpenSSL/0.9.8e-fips-rhel5
mod_auth_passthrough/2.1 mod_bwlimited/1.4 FrontPage/5.0.2.2635 mod_perl/2.0.4 
Perl/v5.8.8
X-Powered-By: PHP/5.2.14
Expires: Wed, 11 Jan 1984 05:00:00 GMT
Cache-Control: no-cache, must-revalidate, max-age=0
Pragma: no-cache
Last-Modified: Sun, 27 Feb 2011 13:15:27 GMT
Location: http://http/www.ipujia.com/
Content-Length: 0
Connection: close
Content-Type: text/html; charset=UTF-8

这很奇怪,因为我无法获得跟随位置的索引页。有谁有什么想法吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-02-27 21:51:38

响应中的位置字段包含格式错误的URI。

位置:http://http/www.ipujia.com/ (注意协议错误)应该是

位置:http://www.ipujia.com/

除非您控制了服务器,否则您在这里几乎无能为力。

为了解决这个问题,您可以不解析"Location“响应并尝试从其中提取一个有效的URI吗?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5133530

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档