问从Flask路由开始scrapy
EN

Stack Overflow用户

提问于 2015-07-24 11:46:54

回答 1查看 1.6K关注 0票数 5

我想建立一个爬虫，需要抓取网页的网址，并将结果返回给一个网页。现在，我从终端启动scrapy并将响应存储在一个文件中。当一些输入发布到Flask、处理并返回响应时，我如何启动爬虫？

python

flask

scrapy

回答 1

Stack Overflow用户

发布于 2015-07-24 12:16:14

您需要在Flask应用程序中创建一个CrawlerProcess，并以编程方式运行爬网。请参阅docs。

import scrapy
from scrapy.crawler import CrawlerProcess

class MySpider(scrapy.Spider):
    # Your spider definition
    ...

process = CrawlerProcess({
    'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
})

process.crawl(MySpider)
process.start() # The script will block here until the crawl is finished

在继续您的项目之前，我建议您查看Python任务队列(如rq)。这将允许您在后台运行Scrapy crawls，并且在scrapes运行时Flask应用程序不会冻结。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/31601848

复制

相似问题

问从Flask路由开始scrapy
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从Flask路由开始scrapyEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从Flask路由开始scrapy
EN