
如果想要详细的查看Scrapy的相关内容可以自行查看官方文档。 文档地址如下:https://docs.scrapy.org/en/latest/intro/overview.html#walk-through-of-an-example-spider
Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
Scrapy是一个用于爬网网站并提取结构化数据的应用程序框架,可用于各种有用的应用程序,例如数据挖掘,信息处理或历史档案。
尽管Scrapy原本是设计用来屏幕抓取(更精确的说,是网络抓取),但它也可以用来访问API来提取数据。
此部分来源于官方
为了能够展示出Scrapy带来的好处,博主将使用最简单的运行Spider的方式向您介绍Scrapy Spider的示例。
import scrapy
class QuotesSpider(scrapy.Spider):
name = 'quotes'
start_urls = [
# 所要爬取的真实网址
'http://quotes.toscrape.com/tag/humor/',
]
def parse(self, response):
# 使用CSS选择器遍历quote元素,生成包含提取的报价文本和作者的Python dict,查找指向下一页的链接
for quote in response.css('div.quote'):
yield {
# 通过xpath的方式解析并获取出作者的名字
'author': quote.xpath('span/small/text()').get(),
'text': quote.css('span.text::text').get(),
}
next_page = response.css('li.next a::attr("href")').get()
# 判断 如果下一页不为空,继续进行爬取操作
if next_page is not None:
yield response.follow(next_page, self.parse)quotes_spider.py 然后使用以下runspider命令运行Spiderscrapy runspider quotes_spider.py -o quotes.jsonquotes.json文件中包含JSON格式的引号列表,其中包含文本和作者,如下所示(此处重新格式化以提高可读性)[{
"author": "Jane Austen",
"text": "\u201cThe person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.\u201d"
},
{
"author": "Groucho Marx",
"text": "\u201cOutside of a dog, a book is man's best friend. Inside of a dog it's too dark to read.\u201d"
},
{
"author": "Steve Martin",
"text": "\u201cA day without sunshine is like, you know, night.\u201d"
},
...]humor的界面结构

① 总体

② 文本

③ 作者

④ 翻页

都在源码中进行注释了)需要提前知道的一些小知识:在使用构造器的时候,使用XPath和CSS查询响应非常普遍,他们两个的快捷键分别为:response.xpath()和response.css():
quote元素,生成包含文本和作者的Python dict,查找指向下一页的链接span/small/text()和span.text::text得到作者与其本人所发表的文本内容li.next a::attr("href")获取翻页后的内容并且做出判断如果不存在,则自动停止爬取。下图显示了Scrapy体系结构及其组件的概述,以及系统内部发生的数据流的概况(由红色箭头显示)。下面包括对这些组件的简要说明,以及有关它们的更多详细信息的链接。数据流也在下面描述。

Scrapy中的数据流由执行引擎控制,如下所示:

Scrapy Engine(引擎):负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。
Scheduler(调度器):它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。
Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理。
Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器)。
Item Pipeline(管道):它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方。
Downloader Middlewares(下载中间件):下载器中间件是位于引擎和下载器之间的特定挂钩,它们在从引擎传递到下载器时处理请求,以及从下载器传递到引擎的响应。
如果需要执行以下操作之一,请使用Downloader中间件:
Spider Middlewares(Spider中间件):一个可以自定扩展和操作引擎和Spider中间通信的功能组件。其是位于引擎和爬虫之间的特定挂钩,并且能够处理爬虫的输入(响应)和输出(项目和请求)。
如果需要,请使用Spider中间件
errback而不是回调。本次的分享就到这里了