文章/答案/技术大牛

发布

社区首页 >问答首页 >跟随超链接和“已过滤的异地请求”

问跟随超链接和“已过滤的异地请求”
EN

Stack Overflow用户

提问于 2013-07-25 23:33:32

回答 2查看 13.9K关注 0票数 18

我知道有几个相关的帖子，它们给了我很大的帮助，但我仍然不能做到这一点。在运行代码不会导致错误的情况下，我在csv文件中什么也没有得到。我有下面的Scrapy爬虫，它从一个网页开始，然后跟随一个超链接，然后抓取链接的页面：

from scrapy.http import Request
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item, Field

class bbrItem(Item):
    Year = Field()
    AppraisalDate = Field()
    PropertyValue = Field()
    LandValue = Field()
    Usage = Field()
    LandSize = Field()
    Address = Field()    

class spiderBBRTest(BaseSpider):
    name = 'spiderBBRTest'
    allowed_domains = ["http://boliga.dk"]
    start_urls = ['http://www.boliga.dk/bbr/resultater?sort=hus_nr_sort-a,etage-a,side-a&gade=Septembervej&hus_nr=29&ipostnr=2730']

    def parse2(self, response):        
        hxs = HtmlXPathSelector(response)
        bbrs2 = hxs.select("id('evaluationControl')/div[2]/div")
        bbrs = iter(bbrs2)
        next(bbrs)
        for bbr in bbrs:
            item = bbrItem()
            item['Year'] = bbr.select("table/tbody/tr[1]/td[2]/text()").extract()
            item['AppraisalDate'] = bbr.select("table/tbody/tr[2]/td[2]/text()").extract()
            item['PropertyValue'] = bbr.select("table/tbody/tr[3]/td[2]/text()").extract()
            item['LandValue'] = bbr.select("table/tbody/tr[4]/td[2]/text()").extract()
            item['Usage'] = bbr.select("table/tbody/tr[5]/td[2]/text()").extract()
            item['LandSize'] = bbr.select("table/tbody/tr[6]/td[2]/text()").extract()
            item['Address']  = response.meta['address']
            yield item

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        PartUrl = ''.join(hxs.select("id('searchresult')/tr/td[1]/a/@href").extract())
        url2 = ''.join(["http://www.boliga.dk", PartUrl])
        yield Request(url=url2, meta={'address': hxs.select("id('searchresult')/tr/td[1]/a[@href]/text()").extract()}, callback=self.parse2)

我尝试将结果导出到csv文件，但在该文件中什么也得不到。但是，运行代码不会导致任何错误。我知道这是一个只有一个URL的简单示例，但它说明了我的问题。

我想我的问题可能是我没有告诉Scrapy我想用Parse2方法保存数据。

顺便说一句，我以scrapy crawl spiderBBR -o scraped_data.csv -t csv的身份运行爬行器

python

callback

web-scraping

scrapy

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-07-26 02:04:07

您需要修改您在parse中生成的Request，以使用parse2作为其回调。

编辑：allowed_domains不应包含http前缀，例如：

allowed_domains = ["boliga.dk"]

尝试一下，看看您的爬行器是否仍然正常运行，而不是将allowed_domains留空

票数 44

Stack Overflow用户

发布于 2016-01-14 18:34:02

尝试创建此dont_filter=true

yield Request(url=url2, meta{'address':hxs.select("id('searchresult')/tr/td[1]/a[@href]/text()").extract()}, callback=self.parse2,dont_filter=True)

票数 9

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/17862474

复制

相似问题

问跟随超链接和“已过滤的异地请求”
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问跟随超链接和“已过滤的异地请求”EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问跟随超链接和“已过滤的异地请求”
EN