首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >多条线上的刮伤csv输出

多条线上的刮伤csv输出
EN

Stack Overflow用户
提问于 2015-02-11 19:30:09
回答 1查看 158关注 0票数 0

这是我的蜘蛛

代码语言:javascript
复制
from scrapy.spider import BaseSpider
from scrapy.selector import Selector
from ..items import TutorialItem

class Tutorial1(BaseSpider):
name = "Tut"
allowed_domains = ['nytimes.com']
start_urls = ["http://nytimes.com",] 

def parse(self, response):
    sel = Selector(response)
    sites = sel.xpath('//div[@class="span-ab-layout layout"]')
    items = []

    for site in sites:
        item = TutorialItem()
        item['title'] = map(unicode.strip, site.select('//h2[@class="story-heading"]/a/text()').extract())
        item['time'] = map(unicode.strip, site.select('//time[@class="timestamp"]/text()').extract())
        yield item

这是我的输出:

作者:彼得·贝克( PETER BAKER )、乔纳森·M·卡茨( JONATHAN M. KATZ )和理查德·P·佩雷斯( RICHARD P.‰-PE‘A)、尼尔·休斯( NEIL MacFARQUHAR )、罗恩·尼克松( RON NIXON )、理查德·戈尔茨坦( RICHARD GOLDSTEIN )、路易丝·斯泰因( LOUISE )和亚历杭德拉·XANIC von BERTRAB、戴维·卡尔( DAVID CARR )、A.O.斯科特(JER‰LONGMAN )、编辑委员会、乔恩·贝克曼( JON贝克曼)、C.J·休斯( C. J. HUGHES )、乔安妮·考夫曼( JOANNE KAUFMAN )上午10:26、下午1:08及晚11:57、上午8:33、上午10:01(上午10:01)、下午12:35 ET、下午1:47、上午10:36。晚10:26,晚9:49,晚12:05,晚9:21,晚12:22,东11:52,晚8:59 作者: PETER BAKER,JONATHAN . KATZ和RICHARD P‰REZ-PE‘A,NEIL MacFARQUHAR,RON,RICHARD GOLDSTEIN,LOUISE STORY和ALEJANDRA XANIC von BERTRAB,DAVID CARR,A.O. SCOTT,JER‰LONGMAN,编辑委员会,JON贝克曼,C. J. HUGHES,JOANNE KAUFMAN,上午10:26,下午1:08,上午11:57,上午8:33,上午10:01,下午12:35,下午1:47,晚10:36,上午10:26,上午10:26。东9:49,晚12:05,东9:21,晚12:22,东11:52,东8:59

我做了缩进,所以很清楚它是在哪里复制的。

当我去打印我在CSV中的作品时,我的问题总是一排排地出现。由于某些原因,它还会生成一个重复列。有人能帮我解决这个难题吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-02-13 17:14:25

我通过试验找到了它:

代码语言:javascript
复制
hxs = HtmlXPathSelector(response)

显然,Selector和HtmlPatchSelector之间有很大的区别

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/28462886

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档