文章/答案/技术大牛

发布

问多条线上的刮伤csv输出
EN

Stack Overflow用户

提问于 2015-02-11 19:30:09

回答 1查看 158关注 0票数 0

这是我的蜘蛛

from scrapy.spider import BaseSpider
from scrapy.selector import Selector
from ..items import TutorialItem

class Tutorial1(BaseSpider):
name = "Tut"
allowed_domains = ['nytimes.com']
start_urls = ["http://nytimes.com",] 

def parse(self, response):
    sel = Selector(response)
    sites = sel.xpath('//div[@class="span-ab-layout layout"]')
    items = []

    for site in sites:
        item = TutorialItem()
        item['title'] = map(unicode.strip, site.select('//h2[@class="story-heading"]/a/text()').extract())
        item['time'] = map(unicode.strip, site.select('//time[@class="timestamp"]/text()').extract())
        yield item

这是我的输出：

作者:彼得·贝克( PETER BAKER )、乔纳森·M·卡茨( JONATHAN M. KATZ )和理查德·P·佩雷斯( RICHARD P.‰-PE‘A)、尼尔·休斯( NEIL MacFARQUHAR )、罗恩·尼克松( RON NIXON )、理查德·戈尔茨坦( RICHARD GOLDSTEIN )、路易丝·斯泰因( LOUISE )和亚历杭德拉·XANIC von BERTRAB、戴维·卡尔( DAVID CARR )、A.O.斯科特(JER‰LONGMAN )、编辑委员会、乔恩·贝克曼( JON贝克曼)、C.J·休斯( C. J. HUGHES )、乔安妮·考夫曼( JOANNE KAUFMAN )上午10:26、下午1:08及晚11:57、上午8:33、上午10:01(上午10:01)、下午12:35 ET、下午1:47、上午10:36。晚10:26，晚9:49，晚12:05，晚9:21，晚12:22，东11:52，晚8:59 作者: PETER BAKER，JONATHAN . KATZ和RICHARD P‰REZ-PE‘A，NEIL MacFARQUHAR，RON，RICHARD GOLDSTEIN，LOUISE STORY和ALEJANDRA XANIC von BERTRAB，DAVID CARR，A.O. SCOTT，JER‰LONGMAN，编辑委员会，JON贝克曼，C. J. HUGHES，JOANNE KAUFMAN，上午10:26，下午1:08，上午11:57，上午8:33，上午10:01，下午12:35，下午1:47，晚10:36，上午10:26，上午10:26。东9:49，晚12:05，东9:21，晚12:22，东11:52，东8:59

我做了缩进，所以很清楚它是在哪里复制的。

当我去打印我在CSV中的作品时，我的问题总是一排排地出现。由于某些原因，它还会生成一个重复列。有人能帮我解决这个难题吗？

python

csv

cmd

scrapy

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-02-13 17:14:25

我通过试验找到了它：

hxs = HtmlXPathSelector(response)

显然，Selector和HtmlPatchSelector之间有很大的区别

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/28462886

复制

相似问题

问多条线上的刮伤csv输出
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问多条线上的刮伤csv输出EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问多条线上的刮伤csv输出
EN