文章/答案/技术大牛

发布

社区首页 >问答首页 >抓取html时混合扩展ascii和普通字符串

问抓取html时混合扩展ascii和普通字符串
EN

Stack Overflow用户

提问于 2017-02-03 14:44:55

回答 1查看 41关注 0票数 1

我正在学习scrapy(https://doc.scrapy.org/en/1.3/intro/tutorial.html)的文件，但是有一段代码，我的电脑产生了不同的结果。

import scrapy
class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
        'http://quotes.toscrape.com/page/2/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').extract_first(),
                'author': quote.css('span small::text').extract_first(),
                'tags': quote.css('div.tags a.tag::text').extract(),
            }

正确的输出应该是：

{"text"：“”我们创造的世界是我们思考的过程。如果不改变我们的思维，它就无法改变。“”，“作者”：“阿尔伯特·爱因斯坦”，“标签”：“改变”，“深刻思考”，“思考”，“世界”}

但是我的输出(以json格式)是：

{"text"：“\u201c我们创造的世界是我们思维的过程，不改变思维就无法改变。\u201d”，“作者”：“阿尔伯特·爱因斯坦”，“标签”：“改变”，“深刻思考”，“思考”，“世界”}

当我使用scrapy shell或者试图输出一个json文件时，就会发生这种情况。但是如果我选择输出到csv，它会正常工作。有谁有解决方案吗？

环境: Ubuntu，python 3.5

python

scrapy

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-02-03 15:05:07

首先，它是这样编码的，大多数加载它的程序都会在必要时解码它。

如果您坚持用另一种方式对JSON输出进行编码，您可以使用Scrapy的FEED_EXPORT_ENCODING设置as stated here。

我猜您正在寻找的是FEED_EXPORT_ENCODING = 'utf-8' (在您的settings.py文件中)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/42018276

复制

相似问题

问抓取html时混合扩展ascii和普通字符串
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问抓取html时混合扩展ascii和普通字符串EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问抓取html时混合扩展ascii和普通字符串
EN