我已经做了一个刮刀来扫描大约150个链接。每个链接都有大约5k个子链接可以从中获取信息。
我使用Celery在后台运行scraper,并将数据存储在Django ORM上。我使用BeautifulSoup作为废料网址。
当我使用以下命令运行celery时
celery worker -A ... --concurrency=50
除了从1到50睡眠的工人,一切都很好。
我怎样才能让芹菜一直工作到刮刀完成它的任务?
发布于 2017-12-23 23:58:00
首先,该命令不会启动50个工作进程,而是启动一个具有50个进程的工作进程。我还建议使用尽可能多的进程,只要你有可用的内核。(对于我剩下的答案,假设是8。)
我的猜测是,其他进程是空闲的,因为您只执行了一个任务。如果你想做并发工作,你必须将你的工作拆分成可以并发执行的部分。要做到这一点,最简单的方法就是为每个想要抓取的链接创建一个单独的任务。然后工人将开始抓取8个链接,当它完成1,它将开始下一个,直到它完成了所有150个。
因此,您的任务调用代码应该大致如下:
for link in links:
scrape_link.delay(link)使用scrape_link,您的任务函数将如下所示:
@app.task
def scrape_link(link):
#scrape the link and its sub-linkshttps://stackoverflow.com/questions/47953643
复制相似问题