现在我计划以一种更分布式的方式使用scrapy,我不确定爬行器/管道/下载器/调度器和引擎是否都托管在不同的进程或线程中,有人能分享一些关于这方面的信息吗?我们是否可以更改每个组件的进程/线程计数?我知道现在有两个设置"CONCURRENT_REQUESTS“和"CONCURRENT_ITEMS",它们将决定下载器和流水线的并发线程,对吗?如果我想在不同的机器上部署爬行器/管道/下载器,我需要序列化项目/请求/响应,对吧?非常感谢您的帮助!
谢谢,爱德华。
发布于 2012-11-15 22:27:22
Scrapy是单线程的。它使用Reactor pattern来实现并发网络请求。这是使用Twisted框架完成的。
想要发布Scrapy的人通常会尝试实现一些消息传递框架。有些是use Redis,有些是try RabbitMQ
还可以了解一下Scrapyd
https://stackoverflow.com/questions/10925166
复制相似问题