这是我的蜘蛛
from scrapy.spider import BaseSpider
from scrapy.selector import Selector
from ..items import TutorialItem
class Tutorial1(BaseSpider):
name = "Tut"
allowed_domains = ['nytimes.com']
start_urls = ["http://nytimes.com",]
def parse(self, response):
sel = Selector(response)
sites = sel.xpath('//div[@class="span-ab-layout layout"]')
items = []
for site in sites:
item = TutorialItem()
item['title'] = map(unicode.strip, site.select('//h2[@class="story-heading"]/a/text()').extract())
item['time'] = map(unicode.strip, site.select('//time[@class="timestamp"]/text()').extract())
yield item这是我的输出:
作者:彼得·贝克( PETER BAKER )、乔纳森·M·卡茨( JONATHAN M. KATZ )和理查德·P·佩雷斯( RICHARD P.‰-PE‘A)、尼尔·休斯( NEIL MacFARQUHAR )、罗恩·尼克松( RON NIXON )、理查德·戈尔茨坦( RICHARD GOLDSTEIN )、路易丝·斯泰因( LOUISE )和亚历杭德拉·XANIC von BERTRAB、戴维·卡尔( DAVID CARR )、A.O.斯科特(JER‰LONGMAN )、编辑委员会、乔恩·贝克曼( JON贝克曼)、C.J·休斯( C. J. HUGHES )、乔安妮·考夫曼( JOANNE KAUFMAN )上午10:26、下午1:08及晚11:57、上午8:33、上午10:01(上午10:01)、下午12:35 ET、下午1:47、上午10:36。晚10:26,晚9:49,晚12:05,晚9:21,晚12:22,东11:52,晚8:59 作者: PETER BAKER,JONATHAN . KATZ和RICHARD P‰REZ-PE‘A,NEIL MacFARQUHAR,RON,RICHARD GOLDSTEIN,LOUISE STORY和ALEJANDRA XANIC von BERTRAB,DAVID CARR,A.O. SCOTT,JER‰LONGMAN,编辑委员会,JON贝克曼,C. J. HUGHES,JOANNE KAUFMAN,上午10:26,下午1:08,上午11:57,上午8:33,上午10:01,下午12:35,下午1:47,晚10:36,上午10:26,上午10:26。东9:49,晚12:05,东9:21,晚12:22,东11:52,东8:59
我做了缩进,所以很清楚它是在哪里复制的。
当我去打印我在CSV中的作品时,我的问题总是一排排地出现。由于某些原因,它还会生成一个重复列。有人能帮我解决这个难题吗?
发布于 2015-02-13 17:14:25
我通过试验找到了它:
hxs = HtmlXPathSelector(response)显然,Selector和HtmlPatchSelector之间有很大的区别
https://stackoverflow.com/questions/28462886
复制相似问题