首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Scrapy <TD>解析对齐的麻烦

Scrapy <TD>解析对齐的麻烦
EN

Stack Overflow用户
提问于 2019-05-10 07:45:57
回答 1查看 43关注 0票数 0

我尝试只解析html表中itemSkill Cap列的数据:http://ffxi.allakhazam.com/dyn/guilds/Alchemy.html

在解析时,我遇到了对齐问题,因为我的脚本是从其他列解析的。

代码语言:javascript
复制
import scrapy

class parser(scrapy.Spider):
    name = "recipe_table"
    start_urls = ['http://ffxi.allakhazam.com/dyn/guilds/Alchemy.html'] 

    def parse(self, response):
        for row in response.xpath('//*[@class="datatable sortable"]//tr'):
            data = row.xpath('td//text()').extract()
            if not data:  # skip empty row
                continue
            yield {
                'name': data[0],
                'cap': data[1],
             #   'misc': data[2]

            }

结果:当scrapy runspider cap.py -t json到达第3行时,来自非预期列的数据将被解析。我不确定选择是怎么回事。

代码语言:javascript
复制
2019-05-09 19:41:28 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://ffxi.allakhazam.com/dyn/guilds/Alchemy.html> (referer: None)
2019-05-09 19:41:28 [scrapy.core.scraper] DEBUG: Scraped from <200 http://ffxi.allakhazam.com/dyn/guilds/Alchemy.html>
{'item_name': u'Banquet Set', 'cap': u'0'}
2019-05-09 19:41:28 [scrapy.core.scraper] DEBUG: Scraped from <200 http://ffxi.allakhazam.com/dyn/guilds/Alchemy.html>
{'item_name': u'Banquet Table', 'cap': u'0'}
2019-05-09 19:41:28 [scrapy.core.scraper] DEBUG: Scraped from <200 http://ffxi.allakhazam.com/dyn/guilds/Alchemy.html>
{'item_name': u'Cermet Kilij', 'cap': u'Cermet Kilij +1'}
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-05-10 09:02:13

使用XPath显式设置源列如何:

代码语言:javascript
复制
for row in response.xpath('//*[@class="datatable sortable"]//tr'):
    yield {
        'name': row.xpath('./td[1]/text()').extract_first(),
        'cap': row.xpath('./td[3]/text()').extract_first(),
     #   'misc': etc.
    }
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56068945

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档