问在抓取中使用CrawlSpider
EN

Stack Overflow用户

提问于 2014-02-27 01:09:09

回答 1查看 136关注 0票数 1

我试着用CrawlSpider来做这件事，这是代码，但是爬行器没有返回结果(打开和关闭后)：

from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from torent.items import TorentItem

class MultiPagesSpider(CrawlSpider):
    name = 'job'
    allowed_domains = ['tanitjobs.com/']
    start_urls = ['http://tanitjobs.com/browse-by-category/Nurse/?searchId=1393459812.065&action=search&page=1&view=list',]
    rules = (
            Rule (SgmlLinkExtractor(allow=('page=*',),restrict_xpaths=('//div[@class="pageNavigation"]',))
            , callback='parse_item', follow= True),
            )

    def parse_item(self, response):
        hxs = HtmlXPathSelector(response)
        items= hxs.select('//div[@class="offre"]/div[@class="detail"]')
        scraped_items =[]
        for item in items:
            scraped_item = TorentItem() 
            scraped_item["title"] = item.select('a/strong/text()').extract() 
            scraped_items.append(scraped_item)
        return items

python

scrapy

回答 1

Stack Overflow用户

发布于 2014-02-27 07:43:10

@paul t.在上面的评论中说了什么，但是另外你需要返回scraped_items而不是items，否则你会得到大量的错误，看起来像这样：

2014-02-26 23:40:59+0000 [job] ERROR: Spider must return Request, BaseItem or None, got 'HtmlXPathSelector' in 
<GET http://tanitjobs.com/browse-by-category/Nurse/?action=search&page=3&searchId=1393459812.065&view=list>

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/22048394

复制

相似问题

问在抓取中使用CrawlSpider
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在抓取中使用CrawlSpiderEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在抓取中使用CrawlSpider
EN