我已经写了一个网络爬虫与代理使用scrapy。因为我总是需要一个随机的代理池来避免被禁止,我决定编写另一个爬虫来抓取一个提供免费IP的网站。
目前,我在两个独立的scrapy项目中使用了这两个爬行器,它们具有不同的设置、管道和中间件。每次开始爬虫过程时,我都需要首先抓取IP,将它们导出到一个文件中,然后转到另一个爬虫的根目录并将IP读取到setting.py中。我想知道是否有可能将两个爬虫合并到一个项目中,这样我只需要运行一个命令就可以开始整个爬行过程。
非常感谢!
https://stackoverflow.com/questions/38239023
复制相似问题