我知道有几个相关的帖子,它们给了我很大的帮助,但我仍然不能做到这一点。在运行代码不会导致错误的情况下,我在csv文件中什么也没有得到。我有下面的Scrapy爬虫,它从一个网页开始,然后跟随一个超链接,然后抓取链接的页面:
from scrapy.http import Request
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item, Field
class bbrItem(Item):
Year = Field()
AppraisalDate = Field()
PropertyValue = Field()
LandValue = Field()
Usage = Field()
LandSize = Field()
Address = Field()
class spiderBBRTest(BaseSpider):
name = 'spiderBBRTest'
allowed_domains = ["http://boliga.dk"]
start_urls = ['http://www.boliga.dk/bbr/resultater?sort=hus_nr_sort-a,etage-a,side-a&gade=Septembervej&hus_nr=29&ipostnr=2730']
def parse2(self, response):
hxs = HtmlXPathSelector(response)
bbrs2 = hxs.select("id('evaluationControl')/div[2]/div")
bbrs = iter(bbrs2)
next(bbrs)
for bbr in bbrs:
item = bbrItem()
item['Year'] = bbr.select("table/tbody/tr[1]/td[2]/text()").extract()
item['AppraisalDate'] = bbr.select("table/tbody/tr[2]/td[2]/text()").extract()
item['PropertyValue'] = bbr.select("table/tbody/tr[3]/td[2]/text()").extract()
item['LandValue'] = bbr.select("table/tbody/tr[4]/td[2]/text()").extract()
item['Usage'] = bbr.select("table/tbody/tr[5]/td[2]/text()").extract()
item['LandSize'] = bbr.select("table/tbody/tr[6]/td[2]/text()").extract()
item['Address'] = response.meta['address']
yield item
def parse(self, response):
hxs = HtmlXPathSelector(response)
PartUrl = ''.join(hxs.select("id('searchresult')/tr/td[1]/a/@href").extract())
url2 = ''.join(["http://www.boliga.dk", PartUrl])
yield Request(url=url2, meta={'address': hxs.select("id('searchresult')/tr/td[1]/a[@href]/text()").extract()}, callback=self.parse2)我尝试将结果导出到csv文件,但在该文件中什么也得不到。但是,运行代码不会导致任何错误。我知道这是一个只有一个URL的简单示例,但它说明了我的问题。
我想我的问题可能是我没有告诉Scrapy我想用Parse2方法保存数据。
顺便说一句,我以scrapy crawl spiderBBR -o scraped_data.csv -t csv的身份运行爬行器
发布于 2013-07-26 02:04:07
您需要修改您在parse中生成的Request,以使用parse2作为其回调。
编辑:allowed_domains不应包含http前缀,例如:
allowed_domains = ["boliga.dk"]尝试一下,看看您的爬行器是否仍然正常运行,而不是将allowed_domains留空
发布于 2016-01-14 18:34:02
尝试创建此dont_filter=true
yield Request(url=url2, meta{'address':hxs.select("id('searchresult')/tr/td[1]/a[@href]/text()").extract()}, callback=self.parse2,dont_filter=True)
https://stackoverflow.com/questions/17862474
复制相似问题