文章/答案/技术大牛

发布

社区首页 >问答首页 >抓取爬虫捕获异常读取实例数据

问抓取爬虫捕获异常读取实例数据
EN

Stack Overflow用户

提问于 2015-07-05 16:44:30

回答 2查看 5.7K关注 0票数 10

我对python很陌生，我想用scrapy来构建一个网络爬虫。我阅读了http://blog.siliconstraits.vn/building-web-crawler-scrapy/的教程。蜘蛛代码如下所示：

from scrapy.spider         import BaseSpider
from scrapy.selector         import HtmlXPathSelector
from nettuts.items        import NettutsItem
from scrapy.http        import Request

class MySpider(BaseSpider):
     name         = "nettuts"
     allowed_domains    = ["net.tutsplus.com"]
     start_urls    = ["http://net.tutsplus.com/"]

def parse(self, response):
    hxs     = HtmlXPathSelector(response)
    titles     = hxs.select('//h1[@class="post_title"]/a/text()').extract()
    for title in titles:
        item = NettutsItem()
        item["title"] = title
        yield item

当使用命令行: scrapy爬行nettus启动蜘蛛时，它有以下错误：

[boto] DEBUG: Retrieving credentials from metadata server.
2015-07-05 18:27:17 [boto] ERROR: Caught exception reading instance data

Traceback (most recent call last):
  File "/anaconda/lib/python2.7/site-packages/boto/utils.py", line 210, in retry_url
    r = opener.open(req, timeout=timeout)

 File "/anaconda/lib/python2.7/urllib2.py", line 431, in open
response = self._open(req, data)

 File "/anaconda/lib/python2.7/urllib2.py", line 449, in _open
'_open', req)

 File "/anaconda/lib/python2.7/urllib2.py", line 409, in _call_chain
result = func(*args)

 File "/anaconda/lib/python2.7/urllib2.py", line 1227, in http_open
return self.do_open(httplib.HTTPConnection, req)

File "/anaconda/lib/python2.7/urllib2.py", line 1197, in do_open
raise URLError(err)

URLError: <urlopen error [Errno 65] No route to host>
2015-07-05 18:27:17 [boto] ERROR: Unable to read instance data, giving up

真的不知道怎么回事。希望有人能帮忙

python

web-crawler

scrapy

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-07-05 18:24:32

在settings.py文件中:添加以下代码设置：

DOWNLOAD_HANDLERS = {'s3'：无，}

票数 29

Stack Overflow用户

发布于 2015-07-05 16:49:23

重要的信息是：

URLError: <urlopen error [Errno 65] No route to host>

这是想告诉你，你的电脑不知道如何与你想刮的网站沟通。您是否能够正常地(即在web浏览器中)从运行此python的机器上访问该站点？

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/31232681

复制

相似问题

问抓取爬虫捕获异常读取实例数据
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问抓取爬虫捕获异常读取实例数据EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问抓取爬虫捕获异常读取实例数据
EN