我在同一个工作区中有一个包含django和scrapy文件夹的项目:
my_project/
django_project/
django_project/
settings.py
app1/
app2/
manage.py
...
scrapy_project/
scrapy_project/
settings.py
scrapy.cfg
...我已经将scrapy与我的django app1模型连接起来,所以每次我运行爬行器时,它都会将收集到的数据存储在我的postgresql数据库中。这就是我的scrapy项目访问django模型的方式
#in my_project/scrapy_project/scrapy_project/settings.py
import sys
import os
import django
sys.path.append('/../../django_project')
os.environ['DJANGO_SETTINGS_MODULE'] = 'django_project.settings'
django.setup()当我从命令行调用爬行器时,一切都运行得很好,但是当我想从django视图调用爬行器作为脚本或django中的芹菜任务时,例如:
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
process = CrawlerProcess(get_project_settings())
process.crawl('spider_name')
process.start()我得到一个错误:
KeyError: 'Spider not found: spider_name'我想我应该告诉Django Scrapy的位置(就像我在scrapy设置中所做的那样),但我不知道怎么做。老实说,我甚至不确定我如何为这个项目设计我的文件夹结构是正确的选择。
发布于 2019-12-14 20:19:16
遵循scrapy doc中的示例
from my_projec.scrapy_project.spiders import MySpider
...
process.crawl(MySpider)https://stackoverflow.com/questions/42497944
复制相似问题