我正在建造一只蜘蛛来提取乐器和它们的数据。
为此,我使用CrawlSpider,最终的结果将是获取所有这些数据,并按模型名称将其放入mongoDB文档中。显然,我还没有完成,也还没有达到这一点。
编辑:我能够修复这个错误并让它运行:但是现在爬虫爬行'0‘页面并且没有返回数据到它输出的csv文件中。有什么问题吗?
我现在拥有的是:
# -*- coding: utf-8 -*-
import scrapy
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import Selector
from scrapy.item import Item
class FenderSpider(CrawlSpider):
name = "fender"
allowed_domains = ["example.org/"]
start_urls = (
'http://www.example.org/fender/?ob=model_asc#results',
)
rules = (
Rule(SgmlLinkExtractor(allow=('item\&pn=*', )), callback='parse_item'),
)
def parse_item(self, response):
item = scrapy.Item()
item['data'] = response.xpath('//span[@class="itemResult"]/text()').extract()
return item这是我的项目文件:
# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html
import scrapy
class MdbItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
name = 'MdbItem'
Item = scrapy.Field()
# company = scrapy.Field()
# model = scrapy.Field()
# model_name = scrapy.Field()
#instrument_type = scrapy.Field()
# year = scrapy.Field()
# serial = scrapy.Field()
# sku = scrapy.Field()一切正常工作,但没有提取数据。我不明白为什么。
有人能帮忙吗?我只是在学习Python和Scrapy,所以我是个新手。
发布于 2014-11-04 19:56:32
将scrapy.CrawlSpider替换为已经从scrapy.contrib.spiders导入的CrawlSpider。
https://stackoverflow.com/questions/26743839
复制相似问题