我正在学习scrapy(https://doc.scrapy.org/en/1.3/intro/tutorial.html)的文件,但是有一段代码,我的电脑产生了不同的结果。
import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'http://quotes.toscrape.com/page/1/',
'http://quotes.toscrape.com/page/2/',
]
def parse(self, response):
for quote in response.css('div.quote'):
yield {
'text': quote.css('span.text::text').extract_first(),
'author': quote.css('span small::text').extract_first(),
'tags': quote.css('div.tags a.tag::text').extract(),
}正确的输出应该是:
{"text":“”我们创造的世界是我们思考的过程。如果不改变我们的思维,它就无法改变。“”,“作者”:“阿尔伯特·爱因斯坦”,“标签”:“改变”,“深刻思考”,“思考”,“世界”}
但是我的输出(以json格式)是:
{"text":“\u201c我们创造的世界是我们思维的过程,不改变思维就无法改变。\u201d”,“作者”:“阿尔伯特·爱因斯坦”,“标签”:“改变”,“深刻思考”,“思考”,“世界”}
当我使用scrapy shell或者试图输出一个json文件时,就会发生这种情况。但是如果我选择输出到csv,它会正常工作。有谁有解决方案吗?
环境: Ubuntu,python 3.5
发布于 2017-02-03 15:05:07
首先,它是这样编码的,大多数加载它的程序都会在必要时解码它。
如果您坚持用另一种方式对JSON输出进行编码,您可以使用Scrapy的FEED_EXPORT_ENCODING设置as stated here。
我猜您正在寻找的是FEED_EXPORT_ENCODING = 'utf-8' (在您的settings.py文件中)
https://stackoverflow.com/questions/42018276
复制相似问题