首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在Heroku云上部署Scrapy spider

如何在Heroku云上部署Scrapy spider
EN

Stack Overflow用户
提问于 2012-10-08 17:48:07
回答 1查看 9.8K关注 0票数 11

我在scrapy中开发了几个爬虫&我想在Heroku云上测试它们。有没有人知道如何在Heroku云上部署Scrapy spider?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-10-19 05:58:44

是的,在Heroku上部署和运行Scrapy spider相当简单。

下面是以一个真实的Scrapy项目为例的步骤:

  1. 克隆项目(请注意,它必须有一个requirements.txt文件,以便Heroku将其识别为Python项目):

git clone https://github.com/scrapinghub/testspiders.git

  1. 将cffi添加到requirement.txt文件(例如cffi==1.1.0)。

  1. 创建Heroku应用程序(这将添加一个新的heroku git remote):

heroku create

  1. 部署项目(第一次构建插件时,这将需要一段时间):

git push heroku main

  1. 运行你的爬虫:

heroku run scrapy crawl followall

一些注意事项:

  • Heroku磁盘是临时磁盘。如果你想把抓取的数据存储在一个持久化的地方,你可以使用一个S3 feed export (通过附加-o s3://mybucket/items.jl)或者使用一个插件(像MongoHQ或者Redis to Go)并编写一个管道来存储你的项目
  • 在Heroku上运行一个Scrapyd服务器是很酷的,但是目前这是不可能的,因为sqlite3模块( Scrapyd需要)不能在Heroku
  • 上工作如果你想要一个更复杂的解决方案来部署你的Scrapy爬虫,可以考虑设置你自己的Scrapyd server或者使用一个托管的服务,如Heroku
票数 13
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12779184

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档